RAGの評価
https://scrapbox.io/files/663487e8d146520024ba56b7.png
RAGの評価は、大きく2つに分かれる
生成
faithfulness
与えられたコンテキストに対する、生成された答えの事実の一貫性を測定
LLMがどの程度、取得したコンテキストに関連した回答をしているかを計測。
0〜1の値をとり、高いほど良い。
answer relevancy
LLMが生成した回答が、どの程度質問に沿っているるかを評価する
不完全な回答や冗長な情報を含む回答には低いスコアが割り当てられる
0〜1の値をとり、高いほど良い。
検索・取得
context precision
LLMがどの程度正確に、質問の回答に必要な情報を取得しているか
理想は、全ての関連するチャンクが上位に表示されること
0〜1の値をとり、高いほど良い。
context recall
参考資料