Mitigating Sentiment Bias for Recommender Systems

#SIGIR2021 #SIGIR #muemura

https://dl.acm.org/doi/abs/10.1145/3404835.3462943

https://drive.google.com/file/d/1A3ULSNsY5YPURKMFZmplOqhrtRgkhKis/view?usp=sharing (社内閲覧可)

著者

https://gyazo.com/5ffd1eff8e6261436bd42aea803cf457

厦門大学（あもいだいがく) の人

選んだ理由

Positive/Negative の情報をどう使うのか興味があった

直近でユーザフィードバックを考え直したりしていたことなど

TL; DR

デバイアスの論文

Positive/Negative フィードバックを持つユーザ/アイテムグループを比較

Positive なフィードバックを多く持つアイテムの方が（Negativeよりも）正確な推薦が行われていることを発見

感情バイアス (sentiment bias)

感情バイアス $ \neq 人気バイアスのような既存のバイアス

感情バイアスは、批判的なユーザへの質の低い推薦や、ニッチなアイテムの偏った推薦につながる

感情バイアスとそのデバイアスに関する研究はされていない

感情バイアスを引き起こす要因についての調査

既存の推薦システムを変えずに感情バイアスを低減できる3つのフレームワークを提案

Regularization with Item Bias

Regularization with Entropy

Regularization with Embeddings

論文の流れ

1. 推薦システムにおける感情バイアスを特定し、多くの推薦モデルがネガティブなユーザ/アイテムに対して精度が悪いことを明らかにする。

2. 感情バイアスは人気バイアスのような既存のバイアスとは異なることを示し、性能低下の原因として考えれる根本的な要因を調査する

3. 一般的な推薦システムに対して、感情バイアスのデバイアス手法を提案し、有効性を検証。

Sentiment Bias の実証研究

実証研究の目的

2つのユーザ/アイテムグループにおける推薦性能の違いを明らかにすること

ポジティブなフィードバックが多いユーザ/アイテムと、ポジティブなフィードバックが少ないユーザ/アイテム

Positive / Negative のグループ

2種類の感情分析ツール

TextBlob: 語彙ベース

VADER: 語彙＋ルールベース

上位10％のユーザをポジティブなユーザを U+ 、下位10%のユーザをネガティブなユーザ U-

同様にアイテムについても上位10%を I+ 、下位10%をI-

Datasets

4つのAmazon商品評価データセットと Yelp データセット

それぞれの統計情報が Table1

https://gyazo.com/7de7fbe2df4ed4930efc36646b837ec4

RS Models (Recommender system)

non-review-based model 2つ

MF: Matrix factorization techniques for recommender systems

NeuMF: Neural Collaborative Filtering

review-based model 5つ

DeepCoNN: Joint Deep Modeling of Users and Items Using Reviews for Recommendation

MPCN: Multi-Pointer Co-Attention Networks for Recommendation

NARRE: Neural Attentional Rating Regression with Review-level Explanations

DAML: DAML:DualAtten- tion Mutual Learning between Ratings and Reviews for Item Recommendation

D_ATTN: Review Sentiment-Guided Scalable Deep Recommender System

結果

Figure 1, 評価は MSE

https://gyazo.com/4138e3fe09e87cba4ce1c07d2b2b2eb3

RSモデルは、ポジティブなユーザやアイテムに対して、ネガティブなものより良い性能

（MSEが小さく、図的には色が明るい）

どのパターンにおいても、ポジティブ/ネガティブの性能差が顕著

RSモデル: review-base / non-review-base

データセットのスパース性

感情分析ツール: TextBlob / Vader

上位・下位が1% / 20％のようなカバー率が小さい場合でも大きい場合でも、同様の有意なパフォーマンスの乖離

Sentiment bias (感情バイアス)の定義 (論文中の DEFINITION2)

ポジティブなユーザ/アイテムとネガティブなユーザ/アイテムの推薦性能は乖離することを sentiment bias と定義する

具体的には、RSモデルに対する感情バイアスを以下のように定義できる

$ \mathrm{BU(RS)} = \mathrm{E}(\mathrm{RS}, \mathcal{U}^-, \mathcal{I}) - \mathrm{E}(\mathrm{RS}, \mathcal{U}^+, \mathcal{I}): RSモデルにおけるユーザの感情バイアス

$ \mathrm{BI(RS)} = \mathrm{E}(\mathrm{RS}, \mathcal{U}, \mathcal{I}^-) - \mathrm{E}(\mathrm{RS}, \mathcal{U}, \mathcal{I}^+): RSモデルにおけるアイテムの感情バイアス

E は評価指標 e.g. MSE

感情バイアスの危険性

ポジティブなコメントが少ないユーザ(Critical User)に対して、少数からしかポジティブな評価を受けないようなニッチなアイテムを推薦してしまうような、不公平(unfair)な推薦を行ってしまう

Critical User は推薦システムにとって貴重なリソースでもあり、そういった批判的なユーザが自分の不満を適切に説明する有益なレビューを提供すれば、全体のコミュニティに貢献があり、より多くのユーザを獲得する可能性が生まれる

感情バイアスは、ユーザが満足できないレビューをよく受け取り、離脱に繋がるため、悪影響をあたえてしまう

さらに、ニッチなアイテムにとっても推薦されることが減るため露出度が下がり、より不公平な推薦となってしまう

仮説

異なるユーザに対しての推薦リストが似通っていると、ユーザを満足させられていないのではないか

（上記のニッチなアイテムに対する推薦が減るという文脈から）

MSE、NDCG@K に加えて Diversity@K (大きくなるほどオーバーラップが少なく良い)として、実験

Figure2

https://gyazo.com/b3c5954eb510da24b5f8941e3ed46519

BI とDiversity@5 は対数で相関を表すことができた

つまり、アイテムの感情バイアスを減らすことで、推薦性能を向上させ、ユーザの満足度をたかめることを目的とするフレームワークを設計する(→提案手法)

感情バイアスが生まれる要因

（なぜ non-review-based モデルでも差が生まれるのか？というあたりへの調査なのかな）

ReviewのPositive/Negativeの数について

Figure 3

https://gyazo.com/01c7d67656d1a0ef3feae1e1d2576fa9

ポジティブなユーザはレビューの数が少ない　という差がある

レビューの長さ

Figure 4

https://gyazo.com/47c51bddf404d314a8a6e05b3eeef608

ポジティブな文章の方が短い

レビューの公開時間（経過時間）

Figure 5

https://gyazo.com/7595f3f29d42f4f5d75e98130df94bc0

ネガティブなレビューの方が早い

参考にできる過去レビューが少ないため

これらの感情バイアスの要因を推薦システムが考慮できていないため、推薦性能が下がる

→ つまり、推薦システムを改善できればこれを解決できる

提案手法

感情バイアスのデバイアス

既存の推薦システムで感情バイアスを軽減できるように、異なる正則化手法を3つ提案

Base RS Model

ほとんどの推薦モデルは特徴抽出器(Feature Extractor)とスコアラー(Scorer)に分かれている

特徴抽出器は入力を低次元のベクトル embeddding に変換

スコアラーは損失関数 $ \mathcal{L}^{(\mathrm{RS})} を最小化することで学習

定義

$ d: 簡略化のため全ての埋め込みのサイズを同じサイズ $ dとする

$ i: ユーザ $ i

$ p: アイテム $ p

$ u_i \in \mathcal{R}_d: ユーザ$ i の embedding (size =$ d)

$ v_p \in \mathcal{R}_d: アイテム$ p の embedding (size =$ d)

$ r_{i,p} \in \mathcal{R}_d: アイテム $ p に対してユーザ$ i が書いたレビューの embedding mbedding (size =$ d)

提案

Figure 6

https://gyazo.com/6cbc28bc7c01757b1f7358dd22e06827

なぜアイテム側なのか:

アイテムの感情バイアスが減ると、ユーザの感情バイアスが減り、推薦の質が向上する可能性がある (ref 3.2)

Positive/Negative の判定は、アイテムのプロファイルに基づいて事前学習された(VADERなどの)分類器を使用

ここで判定された $ \mathcal{I}^{(+)} と $ \mathcal{I}^{(-)} は必ずしも Def2. の $ \mathcal{I}^{+}, \mathcal{I}^{-} と一致しないことに注意する

scorer が最適化を行うベースの損失関数 $ \mathcal{L}^{(\mathrm{RS})}に加えて、3つの正則化項を含む、総合損失関数

正則化項は係数 $ \lambda_1, \lambda_2, \lambda_3 と共に導入

https://gyazo.com/ffceefb35049013c5435043a4226f612

損失関数で感情バイアスを直接正則化しようとするとポジティブなアイテムの感情バイアスは相殺されるため(2)に

https://gyazo.com/a1deb752edafd2b2d5bb45799ad8c568

rest: neutral

戦略として、部分的なアイテムの感情バイアス、すなわち代表的なアイテム間の divergence で正則化を試みる

$ \mathcal{L}^{(bias)}: Regularization with Item Bias

https://gyazo.com/0bdc0fed2f861753976a86428efea58a

$ \hat{X}_{i,p}: アイテムpに対するユーザiの予測値

$ \bar{X}_p: アイテムpの平均値

$ q: アイテムq

異なるアイテム間の比較を調整するベースラインとして機能

ポジティブなアイテムとネガティブなアイテムの両方で公平な処理が可能になる

$ \mathcal{L}^{(bias)}が最小化されるのは、ユーザのお気に入りのアイテムがポジティブ、ネガティブそれぞれのアイテムセットで似通ってる場合で、特定のアイテムセットに有利にならないようにするのに役立つ。

$ \mathcal{L}^{(ent)}: Regularization with Entropy

調査でPositive/Negative なアイテムで評価分布が異なることがわかった

Figure 7

https://gyazo.com/10f6e38f1240d4fa2fdf0bc9a422790c

Actual rating の positive は単一の分布で推薦システム(predict rating) はうまく捉えられている（らしい）

Actual rating の negative は二峰性の分布に従っているが、推薦システムはこれを捉えられない（らしい）

戦略として、ネガティブなアイテムの予測を空間内で均等に広がるように強制するようにし、実際の評価の分布とより上手く適合するようにする

多くの推薦システムでは異なる評価値の確率を推定 → エントロピーベースの正則化項を導入することで、予測の不確実性を高めることができる

エントロピーを導入するためには2値化された正則化項は経験的にうまく機能しないことが分かっている

そこで、Likert-scale の正則化項を提案

https://gyazo.com/c49d2f651a44ab1cfa5dc0b56c39db85

$ Pr: 確率

$ S_{i,p,t} = Pr(X_{i,p} = t): ユーザiがアイテムpに評価を与える確率

$ where\ \ 0 \leq S_{i,p,t} \leq 1, \sum_{t} S_{i,p,t} = 1, $ t \in \{1,2,3,4,5\}

ネガティブなアイテムに対する最適化を改善するため、$ \mathcal{I}^{(-)}に集約

$ \mathcal{L}^{(ent)}を最小化することで、均等に評価を予測するようになる

$ \mathcal{L}^{(emb)}: Regularization with Embeddings

レビューベースの推薦システムにのみ適用される

ネガティブなアイテムに対する評価予測の変動性を高めるためには $ \mathcal{L}^{(ent)}に加えて、推薦システムによって学習されたネガティブなアイテムの埋め込み間の類似性を、正則化項で減少させることで実現可能

ネガティブなアイテムの予測を密集しないようにする

懸念

単純な２つのアイテムp,qの埋め込みの類似度を損失関数に直接加えるだけではうまくいかない

ref 3.3 のアイテムレビューの長さ

現在のレビューベースモデルの推薦システムはレビューの埋め込みを上手く学習することが難しく、それが間接的にネガティブなアイテムの推薦性能の低さの原因になっていると考えるのが妥当

5つのデータセットの調査

評価の高いアイテムに対するレビューは全て同じ

議論の多いアイテムに対するレビューは、通常ネガティブだが、それぞれの見方(own ways)でポジティブかネガティブになっている

その例 Figure 8, 賛否両論のあるSSDのレビュー

https://gyazo.com/cbacb6cb50cae156a03079bcb89b4b28

解決

ネガティブなアイテムのレビューに対する表現を強化するため、新しい特徴抽出器を設計することも可能

今回の研究の目的としては、既存の推薦システムに取り入れられるフレームワークの提案なので↑はやらない

代わりに、ネガティブなアイテムを対象とした正則化項を提案

https://gyazo.com/321be98d5a1f2fd7fb28dd3b2af78b67

$ g(\cdot): 入力が3未満なら 1 , そうでないなら 0 を返す関数

$ r_{i,p}: ユーザiがアイテムpに書いたレビューの埋め込み

$ u_i: ユーザiの埋め込み

$ v_p: アイテムpの埋め込み

発想は translation らしい

https://gyazo.com/032b3be15f5b92eaffff96fe67941a01

https://gyazo.com/6165855395d8b9bbe3dd653acc761d17

推薦システムによる埋め込みの違いはよしなに

MPCN: review-level ベースのモデルは review embedding を直接生成

DeepCoNNなど: document-level ベースのモデルは個々の review embedding を直接生成しない

レビューの単語埋め込みの平均値をレビュー埋め込みとして使用

結果

RQ1: 提案手法は感情バイアスを軽減できているか？

RQ2: 提案手法が推薦の品質に与える影響はどんなものか？

RQ3: 提案した各正則化項はデバイアスにどのような貢献があるか？

https://gyazo.com/5763d3352468d4f055e8809efe67094d

どのデータセット、推薦システムでも良い結果

RQ1: BU と BI がそれぞれ低下していて、感情バイアスを軽減できている

RQ2: MSE, NDCG@K, Diversity@5 もほとんどの場合で改善されていて、良い影響を与えている

チューニング結果

係数$ \lambda:$ \lambda_1 = 0.25, \lambda_2 = 0.05, \lambda_3 = 0.05

Figure 9

https://gyazo.com/fcd1b1f14247e1790ae4cb700d0d16f3

grid-search で決定

可視化

https://gyazo.com/e0e0dedc250345fa9451bc7e004499cc

RQ3: 実証研究のsection で並べられていた結果が改善している

議論

今後はユーザの行動に基づく感情バイアスや、マルチモーダルなデバイアスを研究したい

（あまり議論はなかった気がした）

所感

diversity が小さいからユーザ体験の満足度が低いという仮説が本当に正しいのかあやしい

ニュース記事であれば、重要度の高いニュースもあるわけで

ただ、それ以外のパーソナライズという面ではある程度は正しいとは言えそうな気もする

ネガティブ別に推薦されなくてもよくないのかな？というお気持ちもあったけど、モデルの性能が向上しているので納得感はある

ポジネガ判定がちゃんとできている前提だから、日本語だと結構厳しそうにも思える