Masked Summarization to Generate Factually Inconsistent Summaries for Improved Factual Consistency Checking
https://gyazo.com/822c42cd0c5063173596edac9919c229
選んだ理由
最近また要約に興味が出てきたので
特に運用するにあたって misinformation とかはある程度発生するけど、人間が介入する以外での対処法が気になっていた
著者情報
ソウル大学校, NAVER, リッチモンド大学
主著は Ph.D の学生
導入
abstractive summarization が最近流行りだけど、生成された要約が原文と矛盾していることがよくある
事実整合性を識別する分類器を学習できると嬉しい
そのためには負例(事実整合性がない要約)が必要
正例は要約そのもの
何をしたか
負例の要約文生成手法(Masked-and-Fill with Masked Article; MFMA)の提案
単に token を置き換えるだけだと、明らかに矛盾していることが明らか
負例が簡単だと、学習させてもあまりうまくいかなそう( Hard Negative Sample みたいなものを感じる)
source と summary に対して mask して推論することで、尤もらしいけど事実整合性がない要約を生成
Masked SuMmarization; MSM の提案
summary を見ないモデル
より多様な要約が生成される
概要
先行研究では、単に token を置き換える負例の生成方法がある(下図は Article, summary, 単に置き換えたもの、MFMA)
token 置き換えは coach が President of Russia になってたり明らかに違うように見える
https://gyazo.com/048cb1cde7deb9193d05ca4b8b0a1bdc
Masked-and-Fill with Masked Article の概要
https://gyazo.com/aa2cef97730959fa5a74cd722f8d5846
名詞句(noun phrases)や、entity を一定の確率($ \gamma_A, \gamma_S)で mask して、BART(BERT の enc-dec 版) で学習する
spaCy の EntityRecognizer でやってる
実験
各手法で負例を生成し、事実整合性の分類器を学習してその性能を測る。
CNN/DM dataset の半分を(負例を作成するモデルの)学習に、もう半分に対して負例を作成しデータセットを作成する。
MFMA: bart-base を 5epoch fine-tune したもの
MF: fine-tune していない MFMA (bart-base)
MSM: t5-small
bart-base より良かったからこっち使ってる
FactCC と DocNLI はデータセット以外同じ設定、他は元論文と同じ設定
Classification Accuracy
macro-F1 と Balanced Accuracy で評価
これらを使うのは正例/負例が imbalance だから
5/7 のベンチマークデータセットにおいて、ベースラインを超えているという結果に
特に CNN/DM ベンチマークデータセットにおいて、他手法より大きく性能を伸ばしている
CNN/DM データセットで学習したためだと考えられる
https://gyazo.com/ef6ab778079b335bbe867f3c1a6cd2a1
https://gyazo.com/124fe8808bf1f545a1fb3bacc9e814f6
Correlation with Human Judgment
人間の判断と分類の出力の相関を見る(ピアソンの積率相関係数とスピアマンの順位相関係数)
2値分類でない(おそらくリッカート尺度)
3/5 のベンチマークデータセットで高い相関を示すことがわかった
https://gyazo.com/c071e44b7ce4a846a6dee99fc42226b6
Performance among Masked Ratio
mask 率と性能の関係
mask 率を高くしすぎると、親和性(affinity)が低くなりパフォーマンスが落ちる
mask 率を低くすると、生成された負例が真の負例じゃないことが多くなってしまう
普通に正しい要約が生成されるようになってしまうので、分類器の性能が落ちてしまう
良い mask 率の組み合わせがあることが示唆される
https://gyazo.com/531eaf47adb9cef2b51785ea59a085b0
↑の話の例
https://gyazo.com/20e4cd81413f4e83daef214c9a7c6086
Performance among Masking Unit
mask の粒度に関する実験(数値は Balanced Accuracy)
名詞句(noun phrases) entity が最も性能が高かった
https://gyazo.com/5d6c74133d204f8a43dae3bde48d69b0/thumb/600#.jpg
Distance from Original Reference Summary
BERTScore と Accuracy の関係(plot は mask 率ごとに出したもの)
参照要約(正例)と出力された負例との BERTScore
0.85 付近で最大になっており、負例が正例からどの程度離れていれば分類器の学習に役に立つかを示している。
R-square が 0.74 とそこそこ大きい
https://gyazo.com/5253371fd2f522e8890b58074897f2d3
Diversity among Masked Ratio
mask 率を固定、 mask 位置を変更することで異なる負例を生成することができるので、mask 率と多様性の関係を分析
4つサンプリングして、 Negative Pairwise BERTScore を算出
下の式 ( ref. )で BERTScore を平均している R-square が 0.7 とそこそこ大きく、多様性に関しても性能が高くなる値が存在することが示された
https://gyazo.com/376882f6da0660377e375ccbd4781a0a
https://gyazo.com/37fb2b277628ef34768a69b0b0b824f6/thumb/600#.jpg
感想
シンプルかつ汎用的に使えそうな話で良かった
分類器のしきい値を厳し目にしたりすることで、人間のコストを下げることが出来るのか気になる