Generalizing to the Future Mitigating Entity Bias in Fake News Detection
https://gyazo.com/7f6539320daf6558197ed82bc946745e
著者情報
Chinese Academy of Sciences (中国科学院)
北京航空航天大学
選んだ理由
Fake news detection を大学時代にほんの少しやっていたので、現在どういった状態なのかが気になった
どんなもの?
フェイクニュース検出は、過去のニュースからモデルを学習し、将来のフェイクニュースを検出することを目的としている
実世界のデータの偏りを見落としているために汎化性能に大きな問題がある
https://gyazo.com/660087d3d3ca9a7da804c0fc07fbf3eb
‘Donald Trump’ のニュースは2010年から2017年までは97%が事実だが、2018人にはわずか33%にまで落ちる
結果、2010年から2017年までのデータで学習したモデルは性能が低くなる
エンティティ (ここでいう ‘Donald Trump’) の偏りを緩和することで、フェイクニュース検出モデルを将来のデータに対して一般化するエンティティ デバイアスフレームワークを提案
(table 1の補足): 一般にニュースの相対的な量とフェイクニュース率に相関が見られるらしい
注目が集まっているコンテンツ (エンティティ) はフェイクニュースが作られやすくフェイク率が上がる
逆に注目度が下がると事実のみを含むニュースが割合として増えていく
先行研究と比べてどこがすごい? (貢献)
因果関係の観点からエンティティの偏りを緩和することで、フェイクニュース検出モデルを将来のデータに対して一般化するエンティティ デバイアスフレームワーク(ENDEF)を提案
ENDEFでは、 エンティティ、ニュース内容、ニュースの真実性の間の因果関係グラフ に基づき、学習時に各原因 (エンティティとコンテンツ) の寄与度を個別にモデル化する
推論段階では、エンティティの直接的な影響を除去し、エンティティバイアスを軽減する
将来のデータに対するフェイクニュース検出モデルの汎化能力を明示的に向上させた最初の研究
既存研究の多くはtrainとtestでニュースが同一の環境から同一の期間でサンプリングされることを前提にしている
技術や手法のキモはどこ?
記号の整理
$ D=dataset
$ P=news
$ P=\lbrace w_1, w_2, ... , w_n \rbrace
$ E=entity list
$ E=\lbrace e_1, e_2, ... , e_m \rbrace
$ y= \lbrace 0, 1 \rbrace : 1 -> 嘘, 0 -> 真実
モチベーション
https://gyazo.com/83fe301d3502b9f1b1bd5e2a98361470
既存研究は、ある種のエンティティの存在に過度に依存した予測モデルになってしまう
if ‘Donald Trump’ -> fake news といったイメージ
entity のバイアスを軽減できるようにしたい
Figure 1 (a) の E -> Y の影響を減らした
手法
https://gyazo.com/aa2042434102c3523b83872ee9be22c0
まとめると
Entity-based Model と Detector を同時に学習する
Entity-based Model: 入力が Entity のリストのみで Fake かどうかを当てる
このモデル単独でも Fake か当てるように学習する
Detector: 入力が Entity を含む文章全体。Entity-based Model の出力と組み合わせて Fakeかどうかを当てる
最終出力は両モデルの出力をハイパーパラメータの重みを付けて合算し、シグモイドをとったもの
Entity-based Model が Entity 由来の Fake 確率部分を担ってくれるので、推論時に Entity-based Model を除くと Detector はEntity の影響を受けにくくなることを期待
という手法 (結構ナイーブ)
詳細
Entity-based Model:
$ \hat{r}_E=f_E\left(\left\{e_1, \ldots, e_m\right\}\right)
Detector:
$ \hat{r}_P=f_P\left(\left\{w_1, \ldots, w_n\right\}\right)
$ f_E, f_Pは任意のニューラルネットのモデルを想定 (厳密にはニューラルでなくても大丈夫そう)
$ \hat{y}=\sigma\left(\alpha \hat{r}_P+(1-\alpha) \hat{r}_E\right)
$ \alpha はハイパーパラメータ。実験時に 0.1 ずつグリッドサーチしたら 0.8 が適切だったらしい
$ \mathcal{L}_O=\sum_{(P, y) \in \mathcal{D}}-y \log (\hat{y})-(1-y) \log (1-\hat{y})
Entity-based Model と Detector の出力を組み合わせてた出力を logloss で学習
$ \mathcal{L}_E=\sum_{(P, y) \in \mathcal{D}}-y \log \left(\sigma\left(\hat{r}_E\right)\right)-(1-y) \log \left(1-\sigma\left(\hat{r}_E\right)\right)
Entity-based Model は単独でも学習
$ \mathcal{L}=\mathcal{L}_O+\beta \mathcal{L}_E
上記2つのlossを重みづけて使用。$ \beta は0.2らしい
推論時は Detector のみを使用する
$ \hat{y}=\sigma\left(\hat{r}_P\right)
どうやって有効だと検証した?
オフライン実験とオンライン実験?の2種類で以下のRQを確かめた
RQ1 我々のフレームワークは、将来のデータに対するフェイクニュース検出の汎化能力を向上させることができるか?
RQ2 本フレームワークは実世界のオンラインシステムの性能向上をもたらすことができるか?
RQ3 エンティティバイアスの緩和はベースモデルの性能をどのように向上させるか?
オフライン実験で使用したデータは Weibo と GossipCop
RQ1 我々のフレームワークは、将来のデータに対するフェイクニュース検出の汎化能力を向上させることができるか?
※ 将来のデータに対する性能を確かめるために、validationとtest用のデータセットはtrainよりも未来の時刻のデータを使用した
https://gyazo.com/eeba11f470ce733df2f55b08f46c5135
ほとんどの指標で改善が確認されている
未来のデータへの汎化性能の高さを示している
本フレームワークが使用するモデルに依存しないことを示している
全体的にWeiboのデータセットのほうが性能改善幅が大きい
Weiboの平均テキスト帳が120なのに対して、GossipCopは606。一般に長ければ長いほど文体や感情の情報が多くなり、推論に対するentityの影響が少なくなるため改善幅が小さくなった
spAUC は Fake news detection 文脈で使用される、真実を含むニュースを間違えない点を重要視した指標
RQ2 本フレームワークは実世界のオンラインシステムの性能向上をもたらすことができるか?
中国フェイクニュース検出システムからの2021年の10ヶ月間のデータのダンプでテスト
オフラインデータセットと異なりかなり歪んでいる (フェイクニュースの割合が2.5%)
(異なるベースモデルでのパフォーマンスの改善幅を報告)
https://gyazo.com/82c82dab162472a3741dcdd2b2639465
BERT-Emo は毎日数千の不審なニュースを処理するオンラインシステムに導入されている
RQ3 エンティティバイアスの緩和はベースモデルの性能をどのように向上させるか?
2つのフェイクニュースに対する推論結果を例示
https://gyazo.com/18d80056c879110551ce84dec625fa42
https://gyazo.com/7386dcffcec00455518989e9e55f58ae
メッシは2010-2017年にフェイクニュースが無かったが、2018年に急に増えているのを当てられているかという観点
マクドナルドは2010-2017年にフェイクニュースがそこそこだったが、2018年は100%フェイクにあふれているのを当てられているか
2つともフェイクニュースに対するフェイク推定値を高められている
議論はある?
validationとtest用のデータセットはtrainよりも未来の時刻のデータを使用した と書いたが従来研究がそうしてこなかったのが不思議
明示的に Detector の学習から Entity の影響を除外するような機構がないのが気になった
$ \alpha と $ \beta が今回の最適値だけ提供されていたが、変えたときの影響等
0.8, 0.2 と設定したときにどの程度 Entity-based Model 影響しているのかがピンとこない