CRAG - Comprehensive RAG Benchmark
#論文 #データセット #RAG
https://arxiv.org/abs/2406.04744
https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024
良いベンチマークとは?
Realism: 現実のユースケースを再現している
Richness: 一般的なユースケースから複雑なユースケースまで多様に含む
Insightfulness: 性能の理解を促す
Reliability: 信頼できる評価を与える
Longevity: 長期にわたって研究や実験に使える
CRAGの貢献
Richness
~4500のQAペアを含む
5つのドメインから成る
Finance, Sports, Music, Movie, and Open
簡単な事実確認の質問から、7つのタイプの複雑な質問を含む
Conditions
Comparison questions
Aggregation questions
Multi-hop questions
Set queries
Post-processing-heavy questions
質問の言い換えも含む
Insightfulness
人気のエンティティからロングテールなエンティティまで含む
数秒から数年から幅広いタイムスパンを含む(タイムスパンとは?)
Realism
Smart assistant use casesを参照して生成
3つのタスクを設計
web retrieval, structured querying, and summarization
Reliability
人手でゴールドラベルの検証
3つのタスク
Task 1: Retrieval Summarization
質問当たり、最大5つのWebページを提供する
これらページは質問に適してそうだが、その保証は無い
質問生成の能力を測ることが目的
Task 2: KG (Knowledge Graph) and Web Retrieval Augmentation
Mock APIが与えられる
ちょっとよくわかってない
Task 3: End-to-end RAG
50ページという大きな関連Webページが与えられる
ランキングのテストに使える
データセット
QAペア
言語はすべて英語
8つの質問タイプ
Simple: 簡単な事実についての質問(本の著者名とか)
Simple w. Condition: 例えば日付とかジャンルとか、何かしらの条件がSimpleに付与される
Set: 南半球の大陸は?みたいな解が複数個ある
Comparison: 2つを比較するようなやつ
Aggregation: これまで取ったオスカー賞の数は?のような検索結果を集約する必要がある
Multi-hop: リーの最新作に出演したのは誰か?のような複数の結果をつなぎ合わせる必要がある
Post-processing heavy: サーグッド・マーシャルは最高裁判事を何日間務めたか?のような、答えを得るのに推論や処理が必要(ちょっとよくわかってない)
False Premise: 質問の前提がそもそも間違っている
KGとWebコンテンツの2つのリソース
Dynamism
The size of each dimension slice (e.g., fast-changing facts) allows us to get metrics with < 5% margin-of-error (with 95% confidence level) for most of the cases.
十分なトピック数ってこと?
検索用のコンテンツ
WEB検索結果
Brave Search APIを使って、50HTMLページを抽出
ヒューリスティックに内容を確認しリコールを見積もった結果、Web Questionは84%, KG Questionは63%程度
KGのTorso and Tailエンティティは適合文書が含まれてない所感
Mock KG
?
Mock APIs
?
Metrics
4つのラベル
Perfect (1): ハルシネーション無く適切に回答
Acceptable (0.5): 有益な回答だが、少し有益性を阻害するようなエラーが含まれる
Missing (0): 「分からない」や無回答など
Incorrect (-1): 間違った嘘の回答
Evaluation
human evaluation
手動採点
model-based automatic evaluation
PrefectとAcceptableをマージしてAccurateに
Accurateのスコアは 1
評価ステップ
GTと完全一致ならAccurate
そうでない場合はLLMで採点
self-preference problemを避けるために、ChatGPTとLlama3を使用
See LLM Evaluators Recognize and Favor Their Own Generations