Temporal Blind Spots in Large Language Models

#WSDM2024

読み手: #muemura

WSDM'24: https://www.wsdm-conference.org/2024/accepted-papers/

arxiv: https://arxiv.org/abs/2401.12078

GitHub: https://github.com/jwallat/temporalblindspots

著者

https://gyazo.com/e9b6997200e750b2fd4a53a0cbbe01b8

L3S Research Center

オーストリアインスブルック大学

オランダデルフト工科大学

どんなもの？

時間的な知識と理解が必要なタスクに汎用LLMを導入した場合の根本的な限界を調査することが目的

時間的な解釈が必要なタスクに対するLLMの有効性を検証

LLMの学習で利用されるデータは、多くの場合、鮮度と時間的スコープが制限されている

3つの時間的なQAデータセットを用いて実験

結果、特に過去に関する詳細な質問と、新しい情報に対して低いパフォーマンスを示した

複数の時間的エラーを定義し、QA性能が悪化する条件を特徴付け

https://gyazo.com/c953c60cbeb0b22c53bb3eea60e8ab0f

temporal blind spot の例

特定の年の質問するとChatGPTが誤った回答をしてしまう

先行研究と比べてどこがすごい?

LLMの時間的な盲点（Blind Spot）と時間のナビゲーション能力について調査した研究としては初

技術や手法のキモはどこ?

QAデータセットをベースに質問文の時間参照を変更し実験を行う

時間が関連したエラーの分類を行い定義した

どうやって有効だと検証した?

実験

モデル

alpaca-7B

text-davnici-003

Open-Source LLMs

open-llama-7B

falcon-7B

red-pajama-7B

red-pajama-3B

データセット

https://gyazo.com/e125f304d186c131b6711a0b4880b4d6

TemporalQustions

主要な出来事について⼈が作成した 1,000 の質問

半分は明⽰的に、半分は暗黙的に時間スコープが設定

質問の半分には時間的表現が含まれているも

質問

いくつかの歴史クイズWeb サイト

SQUAD 1.1 や TempQuestions などの既存のデータセットからのpickup

Wikipedia の年のページから手動で作成

ArchivalQA

NYT ニュースコーパスから⽣成

時間検索意図 (過去、未来、⼀時的、現在など)を含むクエリが含まれる

1987 年から 2007 年の期間、⼩さな出来事に関する、過去に関する詳細な質問

TemporalQuestions と同様に、時間の参照や時間的表現が⽋如している質問など、混合した質問が含まる

TempLAMA

KG triples の 9つの関係についてのデータセット（よくわからず）

"plays for" や "head of goverment" などの関係性

2010年から2020年までの、比較的最近の情報をカバーしたデータセット

9つの関係を、実際の質問と答えのペアに再定式化して利用（Appendix参照）

評価

完全一致 (EM) と F1 score

LLMは長い回答を生成する傾向があったため、「contains」メトリクスも導入

生成されたテキストに答えが含まれているかどうか

BEM: BERT-based answer equivalence metric

意味的マッチング

結果

時間的な知識について

https://gyazo.com/75af0ca710ed37e45644310efd456f34

（大きなモデルの text-davinici-003 が相対的に性能が良い）

過去の一般的な出来事に関する比較的単純な質問である TemporalQuestions でさえ、多くのモデルの性能が低い

他の2つの詳細な出来事に関するデータセットだとより性能が低い

memo: 通常のQAタスクより低い？

Insight: LLM は過去に関する質問に答える能力が限られており、全体的に過去の出来事の具体的な詳細に関する知識が不足している

最近の知識を優先するのか

https://gyazo.com/64cb14a1e8a9791dc9f25db02db4fc74

実験設定

年の参照を含むQAペアのパフォーマンスを年別に可視化

ArchivalQA が最新の年をカバーしていないため TempLAMA で同じ実験を行い、2020年までをカバー

結果

ArchivalQA では最近の年（2005年~2007年）が最も良い結果

関連研究のそ他の論文で他のデータセットでも同様の傾向が観察されているとのこと

TempLAMA では、2015年 ~ 2017年がピークで、それ以降の新しい情報では減少傾向

古い事実がトレーニングデータにより多く含まれているためではないか

temporal inertia (時間的慣性?) の問題

トレーニングデータの段階では十分に一般的ではない

ウェブのような大規模な文章情報は、関連する箇所が同時に瞬時に変更されるわけではなく、徐々に更新されるため

モデルが正しく文章の時間性をモデル化できていないのではないか

もしモデルが時間的なシグナルを正しく認識し、適切に利用することができれば、古い情報よりも新しい情報を好むようになるかもしれない

insight: LLM は古い情報よりも最近の情報をよく捉えているが、ある時点までしか発生しないようにみえる。これは最新の情報がまだ十分に普及していないような、temporal inertia の可能性がある。

相対的時間基準と絶対的時間基準

https://gyazo.com/0bfa19c9e119574727a23f23a4e919e2

相対的な時間表現の方がモデルとしては計算が必要なため性能が落ちるはず

「2018年のアメリカ大統領は誰ですか？」→「3年前のアメリカの大統領は誰ですか？」

モデルに現在が何年かという質問に対して「2021年」と回答したため 2021年をベースとしているとのこと

結果として、相対的な年を聞いた質問の方が性能が悪化

最大 35% 低下

insight: LLM は相対的な時間参照が指定された場合、パフォーマンスが低下するため、現在のLLMには、絶対的な時間参照を利用することが推奨される

時間参照はどの程度重要か

https://gyazo.com/41bf6b1a6aa228e6aa0eb421850454f3

https://gyazo.com/72c916cc1bb06953a415669394611881

時間が参照されることの重要性を調査

時間の指定をランダムな年に置き換え + 特定の年数だけずれるように意図的に質問文を変更して実験

人間もよく年を間違えるため特定の年数で試験

結果

ランダム

それぞれ40%~53%のパフォーマンス低下

insight: 時間参照はまったく役に立たないわけでも、積極的に邪魔をするわけでもない

固定年数

3年の場合で、3%~10%のパフォーマンス低下

20年の場合で、30%程度のパフォーマンス低下

insight: 時間参照の誤差の量は、回答の質と相関している。また、相対参照よりも時間を指定しない方が良い。

議論はある?

エラー分析

https://gyazo.com/ee49ca80a4aaf1125689ecfbbfcd0972

回答の間違いの種類を手動でラベル付け

回答多くが、もっともらしい答えではあるが、事実とは異なる回答だった

ハルシネーション

text-davinci-003 の場合、不確実な場合回答しないように調整されているため No ansert が多くなった

エラーの種類

Temporal shift (時間のズレ?)

モデルが実際の時間軸を正しく識別できない場合に発生

1994 年のオスカー賞の受賞者 → 誤って 1995 年の受賞者を予測

特定の時間コンテキストを正確に判断し、質問の意図に合わせるというモデルの難しさ

Temporal Invariance (時間の不変性?)

人気バイアスにより、回答エンティティと質問で言及されたエンティティが強く関連付き、時間制約を無視する

ボクシングとタイソンに強い関連性があり、時間コンテキストを無視して、マイク・タイソンを答えとして予測する

Temporal inertia (時間の慣性)

潜在的な統計誤差が、時間的な慣性によるものであるという仮説

過去のエンティティ間の関係により、最近の過去に関する質問に誤って回答する

過去の統計パターンがモデルの予測に影響を及ぼし、より最近の過去がそれらのパターンから逸脱すると不正確な応答が生じる可能性

Referencing Errors (参照エラー)

現在時刻を正しく理解していないために発生

https://gyazo.com/5722310807d6b25c743c1e6cf7985bdb

エラーの割合

https://gyazo.com/3695a51047134fa2f43ac206be57d428

測定:

データセット TempLAMA: 隣接する年のGroundTruthが含まれている

Shift: ある選手の所属チームが変わる例を見て、モデルが次の対象を予測するか前の対象を予測するか

Invariance: 質問で指定された年に関係なく、モデルが常に同じ出力を予測する関係の比率

Inertia: モデルが対象の最新の関係変化に適応できない割合

データセット ArchivalQA: 相対参照

Referencing: 記載なし（おそらくUnkown的な回答かどうか？）

結果

どのモデルにおいても、Invariance, Referencing の悪影響が大きい

（LLMの時間誤差に関する新しいフレームワークの提案が必要だが、本研究の範囲外と記されてた）

まとめ

LLM の時間理解能力をさらに向上させることの重要性を示した

所感

ChatGPTだと、時間が関連すると回答を間違える感覚はあったが、聞き方によっても差がでるのは知見

LLMとしては RAG などの外部知識を解決法はあるものの、やはり単体で何でもできるようになるに越したことはない