Masked Summarization to Generate Factually Inconsistent Summaries for Improved Factual Consistency Checking

https://gyazo.com/822c42cd0c5063173596edac9919c229

#NAACL2022 #summarization #NLP #hamashita

選んだ理由

最近また要約に興味が出てきたので

特に運用するにあたって misinformation とかはある程度発生するけど、人間が介入する以外での対処法が気になっていた

著者情報

ソウル大学校, NAVER, リッチモンド大学

主著は Ph.D の学生

教授情報 http://milab.snu.ac.kr/kjung/index.html

導入

abstractive summarization が最近流行りだけど、生成された要約が原文と矛盾していることがよくある

(Cao etl al., 2018) によると、（当時の） state-of-the-art のモデルが生成した要約の30%近くに1つ以上事実誤認がある

事実整合性を識別する分類器を学習できると嬉しい

そのためには負例（事実整合性がない要約）が必要

正例は要約そのもの

何をしたか

負例の要約文生成手法（Masked-and-Fill with Masked Article; MFMA）の提案

単に token を置き換えるだけだと、明らかに矛盾していることが明らか

負例が簡単だと、学習させてもあまりうまくいかなそう（ Hard Negative Sample みたいなものを感じる）

source と summary に対して mask して推論することで、尤もらしいけど事実整合性がない要約を生成

Masked SuMmarization; MSM の提案

summary を見ないモデル

より多様な要約が生成される

概要

先行研究では、単に token を置き換える負例の生成方法がある（下図は Article, summary, 単に置き換えたもの、MFMA）

token 置き換えは coach が President of Russia になってたり明らかに違うように見える

https://gyazo.com/048cb1cde7deb9193d05ca4b8b0a1bdc

Masked-and-Fill with Masked Article の概要

https://gyazo.com/aa2cef97730959fa5a74cd722f8d5846

名詞句（noun phrases）や、entity を一定の確率（$ \gamma_A, \gamma_S）で mask して、BART(BERT の enc-dec 版) で学習する

spaCy の EntityRecognizer でやってる

実験

各手法で負例を生成し、事実整合性の分類器を学習してその性能を測る。

CNN/DM dataset の半分を（負例を作成するモデルの）学習に、もう半分に対して負例を作成しデータセットを作成する。

作成されたデータセットに対して、ELECTRA (Clark et al., 2019) (ICLR2020) を学習させる

MFMA: bart-base を 5epoch fine-tune したもの

MF: fine-tune していない MFMA (bart-base)

MSM: t5-small

bart-base より良かったからこっち使ってる

FactCC と DocNLI はデータセット以外同じ設定、他は元論文と同じ設定

Classification Accuracy

macro-F1 と Balanced Accuracy で評価

これらを使うのは正例/負例が imbalance だから

5/7 のベンチマークデータセットにおいて、ベースラインを超えているという結果に

特に CNN/DM ベンチマークデータセットにおいて、他手法より大きく性能を伸ばしている

CNN/DM データセットで学習したためだと考えられる

DocNLI では ANLI (Nie et al., 2020), SQuAD(Rajpurkar et al., 2016) の関連タスクのデータセットも使用している（から性能が高い）

https://gyazo.com/ef6ab778079b335bbe867f3c1a6cd2a1

https://gyazo.com/124fe8808bf1f545a1fb3bacc9e814f6

Correlation with Human Judgment

人間の判断と分類の出力の相関を見る（ピアソンの積率相関係数とスピアマンの順位相関係数）

2値分類でない（おそらくリッカート尺度）

3/5 のベンチマークデータセットで高い相関を示すことがわかった

https://gyazo.com/c071e44b7ce4a846a6dee99fc42226b6

Performance among Masked Ratio

mask 率と性能の関係

mask 率を高くしすぎると、親和性（affinity）が低くなりパフォーマンスが落ちる

mask 率を低くすると、生成された負例が真の負例じゃないことが多くなってしまう

普通に正しい要約が生成されるようになってしまうので、分類器の性能が落ちてしまう

良い mask 率の組み合わせがあることが示唆される

https://gyazo.com/531eaf47adb9cef2b51785ea59a085b0

↑の話の例

https://gyazo.com/20e4cd81413f4e83daef214c9a7c6086

Performance among Masking Unit

mask の粒度に関する実験（数値は Balanced Accuracy）

名詞句（noun phrases) entity が最も性能が高かった

https://gyazo.com/5d6c74133d204f8a43dae3bde48d69b0/thumb/600#.jpg

Distance from Original Reference Summary

BERTScore と Accuracy の関係（plot は mask 率ごとに出したもの）

参照要約（正例）と出力された負例との BERTScore

0.85 付近で最大になっており、負例が正例からどの程度離れていれば分類器の学習に役に立つかを示している。

R-square が 0.74 とそこそこ大きい

https://gyazo.com/5253371fd2f522e8890b58074897f2d3

Diversity among Masked Ratio

mask 率を固定、 mask 位置を変更することで異なる負例を生成することができるので、mask 率と多様性の関係を分析

4つサンプリングして、 Negative Pairwise BERTScore を算出

下の式 ( ref. )で BERTScore を平均している

R-square が 0.7 とそこそこ大きく、多様性に関しても性能が高くなる値が存在することが示された

https://gyazo.com/376882f6da0660377e375ccbd4781a0a

https://gyazo.com/37fb2b277628ef34768a69b0b0b824f6/thumb/600#.jpg

感想

シンプルかつ汎用的に使えそうな話で良かった

分類器のしきい値を厳し目にしたりすることで、人間のコストを下げることが出来るのか気になる