Evaluating the Factual Consistency of Large Language Models Through News Summarization
2024.06.06
著者
https://gyazo.com/ff36ca56cc22d95bb7d34d505d6a927f
この論文はどんなもの?
ニュース要約タスクを用いてLLMの事実的整合性を評価するためのベンチマークFIBを提案
FIBでは、入力のニュース記事に対して、LLMが事実と整合する要約と整合しない要約のどちらにより高いスコアを割り当てるかを比較
事実と整合する要約は人手で作成・検証したもの、整合しない要約は要約モデルが生成したものを人手で選別
LLMの事実的整合性は、事実と整合する要約により高いスコアを割り当てた割合(正解率)で測定
既存のLLMは一般的に、事実と矛盾する生成要約よりも、事実と矛盾しない抽出要約に高いスコアを割り当てることがわかった
しかし、事実と矛盾する要約が文書中に逐語的に出現する場合、LLMは事実と矛盾する要約に、事実と矛盾しない要約よりも高いスコアを割り当てることがわかった
https://gyazo.com/419085e5c4665a3df6812234d53fef7a
FIBの図
今回の調査で判明した点
LLMは通常、事実と矛盾のない要約よりも事実と矛盾のない要約に高いスコアを割り当てる
LLMは文書からそのままコピーされた事実と矛盾する要約よりも、事実と矛盾しない要約を好むことはほとんどない
LLMは一般に、スケールアップされるにつれて、より事実に矛盾しないのを強く評価する
FactCCが生成した事実に矛盾のある要約は、モデルが生成した事実に矛盾のある要約と同様の割合で、いくつかのLLMを欺くことができる
先行研究と比べてどこがすごい? (貢献)
従来の研究は主に教師あり要約モデルの事実的整合性を評価していたのに対し、本研究ではLLMに焦点
23のLLM(パラメータ数1B〜176B)の大規模な評価を行い、スケールと事実的整合性の関係などを分析
要約生成に使う手法(参照要約の編集、要約モデルの生成など)がLLMの判定に与える影響も調査
LLMのスコア付け関数の設計選択(対数尤度、pointwise mutual informationなど)の影響も検証
技術や手法のキモはどこ?
事実と整合する/しない要約のペアを大規模に構築する手法
a. 整合する要約の作成
XSum、CNN/DMデータセットの参照要約を使用
参照要約が必ずしも入力記事と整合するとは限らないため、人手で事実的整合性を検証
事実と整合しない参照要約は、最小限の編集を加えて整合性を確保
編集後の要約を再度人手で検証し、事実と整合することを確認
b. 整合しない要約の作成
CNN/DMでは15の抽出型要約モデル、XSumでは7の生成型要約モデルを使用
それぞれのモデルで要約を生成し、人手で事実的整合性をアノテーション
事実と整合しないと判定された要約のみを採用
c. 整合する/しない要約のペア作成
各入力記事について、整合する要約(Gold summary)と、全ての整合しない要約とのペアを作成
最終的にXSumは500記事で3,124ペア、CNN/DMは96記事で457ペアのデータセットを構築
LLMにより高いスコアを割り当てさせるスコア付け関数の設計
a. 尤度ベースのスコア付け関数の問題点
対数尤度(LL)は要約のトークン確率の積なので、短い要約に偏りやすい
要約自体の尤度が高ければ、記事との整合性が低くてもLLが高くなりうる
b. Pointwise Mutual Information(PMI)の導入
PMIは要約の対数尤度から、要約単体の対数尤度を引くことで計算
要約と記事の関連性を考慮できるため、事実的整合性の評価に適している
c. 長さによるバイアスの排除
トークン数で割ることで、要約の長さを正規化したPMIを使用
これにより、要約の長さによるスコアへの影響を抑制
最終的なスコア関数は以下$ d=ソース文章, s=要約, T=要約のトークン数
$ \begin{aligned} & \frac{1}{T} \log \sum_{t=1}^T P\left(s_t \mid d, s_1, \ldots, s_{t-1}\right) \\ & -\frac{1}{T} \log \sum_{t=1}^T P\left(s_t \mid, s_1, \ldots, s_{t-1}\right)\end{aligned}
どうやって手法が有効だと検証した?
大規模言語モデル(LLM)の評価
a. 6つのモデルファミリーから23のLLMを選択
GPT(GPT2-XL、GPT-Neo-1.3B/2.7B、GPT-NeoX-20B)
OPT(OPT-1.3B〜175B、7モデル)
BLOOM(BLOOM-1.1B〜176B、5モデル)
T0(T0-3B、T0-11B)
FLAN-T5(FLAN-T5-XL/XXL)
T5-LM-Adapt(T5-LM-Adapt-XL/XXL)
b. パラメータ数が1B〜176Bの幅広いモデルを評価
c. XSumとCNN/DMの両方のデータセットでLLMの性能を比較
d. ゼロショットモデル(GPT、OPT、BLOOM、T5-LM-Adapt)とXSum/CNN/DMでファインチューニングされたモデル(T0、FLAN-T5)の比較
https://gyazo.com/1e6c5e95295ac3746adbac63b36963d1
XSumデータセットでは、ほとんどのLLMが事実と整合する要約により高いスコアを与える傾向が見られた
ただし、整合しない要約が入力記事からの抜粋である場合、LLMはそれを選好する傾向があった
モデルのパラメータ数が増えるほど、事実的整合性の精度が向上する傾向が見られた。
XSumでファインチューニングされたT0やFLAN-T5は、ゼロショットモデルよりも精度が低かった。これは、XSumの参照要約には事実と整合しないものが多く含まれているためと考えられる。
CNN/DMデータセットでは、LLMは事実と整合する生成要約よりも、事実と整合しない抽出要約を選好する傾向が見られた。ただし、整合する要約もモデル抽出であれば、LLMはそちらを選好した。
すべてのモデルが、事実と矛盾しないかどうかに関わらず、入力からコピーされたテキストを強く好むことを示唆している
要約生成手法の影響の検証
データセット作成時の事実と矛盾する要約を生成するために使用される方法の影響も分析したい
a. 4種類の要約生成手法を比較
FIR: 元の参考文献の要約の中には事実と矛盾するものがあり、事実と矛盾しないように編集しなければならなかったので、これらの元の参考文献の要約を、事実と矛盾する要約の代替ソースとして使用
FactCC: 参照要約の編集 (先行研究)
FCMG: 代替選択が事実と矛盾しないモデル生成要約
モデルがゴールド要約よりもモデル生成要約を好むかどうかを検証
MFMA: 事実と整合しない要約の生成 (先行研究)
b. 各手法で生成された要約に対するLLMの判定精度を比較
c. FactCCやMFMAといった自動編集・生成手法の有効性を検証
https://gyazo.com/a42074f906b2c01e1b33da5313b128da
MFMAで生成された要約は、LLMにあまり選好されなかった
FactCCについては、ゼロショットのデコーダ型LLM(例:BLOOM)では、モデル生成の要約と同程度の精度で選好された。
T0、FLAN-T5、T5-LM-Adaptでは、FactCCで生成された要約に対する精度が、モデル生成の要約よりも高かった。つまり、FactCCはモデルのアーキテクチャや学習方法によっては、整合しない要約の生成手法として有効でない可能性がある。
LLMは、編集前の事実と整合しない参照要約よりも、編集後の整合する参照要約を選好する傾向が見られた
スコア付け関数の影響の検証
a. 4種類のスコア付け関数を比較
条件付き対数尤度(LL)
長さ正規化LL
Pointwise Mutual Information(PMI)
長さ正規化PMI(FIBのデフォルト)
b. 各スコア付け関数を用いた場合のLLMの判定精度を比較
c. 長さ正規化PMIが最も適切なスコア付け関数であることを確認
https://gyazo.com/4723345f39f21bb269a525108ce25aba
長さ正規化PMIを使用した場合、LLMは事実と整合する要約と整合しない要約を最も効果的に区別できた。
対数尤度(LL)は、FactCCやCNN/DMのモデル抽出要約で生成された要約に対しては、長さ正規化PMIよりも高い精度を示した。これは、FactCCの要約が非流暢であることや、LLがPMIほど抽出要約に偏らないためと考えられる。
CNN/DMでモデルから抽出された要約については、対数尤度が長さ正規化PMIよりも有効であると仮定する。これは対数尤度がPMIほど文書から抽出された要約に偏っていないからと考える
要約モデルの事実的整合性の相互評価
a. XSumで要約を生成した7つのモデル同士で、互いの要約の事実的整合性を評価
b. あるモデルが生成した要約に対し、他のモデルがどの程度の精度で事実的整合性を判定できるかを分析
c. モデル間の事実的整合性判定の傾向や関係性を考察
https://gyazo.com/221c40e8741231037c477674cee37383
各モデルは、自身が生成した整合しない要約に対して最も低い精度を示した。これは、モデルが自身の生成する要約を高く評価する傾向があるためと考えられる
多くの場合、LLMはGold要約よりもモデル生成の整合しない要約を選好した
ただし、BLOOMとT5-largeが生成した要約は、他のモデルからも低く評価される傾向があった
まとめ
言語モデルの事実整合性を評価するための新しいベンチマークであるFIBを提示し、23の大規模言語モデルをFIB上で評価した
LLMは事実と矛盾した要約よりも、事実と矛盾しない要約により高いスコアを割り当てる傾向がある
ただし、LLMは事実と矛盾していても、抽出された要約により高いスコアを割り当てることがほとんどである
この結果は、異なるLLMがどのような事実と矛盾した誤りを犯すかについてのより詳細な研究や、要約に関する訓練がLLMの事実と矛盾しない要約に与える影響の調査など、今後の研究の新たな道を開くものである
感想
想定より要約タスクにフォーカスしたフレームワークではあったが、抽出要約を高く評価しすぎる等は一般的な知見として参考になった