Similarity is Not All You Need: Endowing Retrieval-Augmented Generation with Multi–layered Thoughts
Motivation 選んだ理由
RAG の検索はかなり難しいタスクで、ベクトル類似度よりもBM25が強いケースがままある
そういえば、普通の検索だとクエリとの類似度はかなり最初期に通った道で、その後はリランキングなどMLベースの手法に移っていった
ちょうど類似度じゃ検索できない的な話が出ていた
Summary どんなもの?
RAG で使う検索は、類似度だけに依存するとRAGの性能低下を引き起こす、と主張
類似性と実用性を考慮した、RAGの手法 METRAG を提案
機能1: LLMで学習データを作った小規模な実用性 (utility) 判定モデルを構築
https://gyazo.com/0483d53b9da22c1f380ad662ed489b54
機能2: 必要な情報を残せるようにタスクに沿った要約器としてLLMを利用することで、RAGにつかうLLMの負担を軽減する
https://gyazo.com/7bf6f4967a7987391c855aeb03a826af
QAタスクで Self-RAG や Recomp どを大きく上回る
Self-RAG: RAG出力をLLMでさらにチェック・リランキング、合成
RECOMP: RAGの精度向上のため要約を使う手法
相対的な評価としては、LongRAGの方が圧倒的によさそう
しかもLongRAGはSFTモデルを使っていない
LongRAG に比べると本手法LLMのモデルは圧倒的に小さく ( LongRAGはGPT-4o、こちらはllama2-7B,13B)、相補的ではあるので組み合わせは可能
Contribution 先行研究と比べてどこがすごい?
論文にはここがContribution という感じでは書いていなかったのでコメント
一昔前のRAGをLLMで改良する話の発展版的な位置づけ
検索をがんばる vs. LLM側をがんばる話 でいうと、中間〜LLM寄り
utility モデルは、目的次第での応用がしやすい
信頼性スコア、事実性スコア、時事性スコア、ユーザからのフィードバック、等など・・・
タスク指向要約モデルの学習も考え方として応用範囲は広そう
LongRAGでうまく行った次のステップでコスト削減を考える時、画像・表のエンコーディングをタスク指向にする、ノイズの多い情報源を利用する場合、など
Method 技術や手法のキモはどこ?
機能1: 類似度モデルと有用性モデルを組み合わせて(候補から類似度か有用度が最大のものを選択)
有用性モデル
LLMの判定した有用かどうかのラベルを学習
類似度モデルもしくは有用性モデルのスコアが閾値以上のものを RAGの入力として利用
機能2: タスク指向要約
GPT-4 などの大きなモデルで要約をおこなって訓練用のデータを作成、モデルを蒸留
さらに、蒸留したモデルをE2Eの結果で(RAGの出力が正しいかどうかで)学習している
学習の仕組みはDPOとほぼ同じ
人のpreference の代わりに LLM のパフォーマンスが上がるよう学習させている
https://gyazo.com/2cf2c7cca6055b8ad8bba315cb5d4622
あらかじめ用意した事例 $ \mathbb X_q, \mathbb Y_q, \mathbb Z_q について、E2Eで正解できる応答を返す確率が高くなるとLoss 小になる
$ \mathbb X: プロンプト 、$ \mathbb Y: LLMの応答、$ \mathbb Z: E2Eで正解したかどうかのラベル
https://gyazo.com/2fd4e9f680b767627a8e6daf44546894
$ r_{\phi}(\mathbb X_q, \mathbb Y_q) はベースのモデルと比べて、あるクエリのもとで特定の出力が出やすくなっているかどうかを表している
$ \pi^{SFT}({\mathbb Y}_q|{\mathbb X}_q) がGPT-4 から蒸留した要約モデル、$ \pi^{\theta}({\mathbb Y}_q|{\mathbb X}_q) がタスク指向に学習したいモデル
Experiments どうやって有効だと検証した?
https://gyazo.com/eb85b4d666274c1fd8d67beac22b3735
データセットは特定のキーワードが正解になるQA
F1 と EM で評価
EM:Exact match ではなく、正解のキーワードが生成した回答に含まれているかどうかの評価
F1: おそらくExact match での Recall、Precision を計算したF1
提案手法のMETRAGは他の手法から割と大きく精度をあげている
POPQAのEM のみQWENやLlama2など検索+LLMが強い
POPQA は検索有無の差が大きく、素のLLMに含まれない知識を問われる
EMとF1はややトレードオフの関係にあり、正確性と簡潔さのどちらを重視するかで変わりうる
極端な話、関係する単語をとにかく並べていけばEMは上がりうる
Ablation
https://gyazo.com/5493200f4104a25813a14393a83c6e23
W/O COMB: 有用度モデルなし
ほとんどのデータセットで大きな影響がでている
W/O AS: 要約なし
F1の方で比較的大きい差がでている。余分な情報が削除できている?
参考: LongRAG の方の値
https://gyazo.com/a85c304ffbc5dcdd99c337cf9f96f6fa
NQ で+13ポイント、HotpotQAで+20ポイント
Discussion 議論はある?
結果はそこそこなものの、応用がしやすそうなモデル
あちこちSFTするのが前提なので、運用コストなどは高め