RAG解説論文
https://scrapbox.io/files/65950573adb0dc00249e0bb5.png
論文情報
タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey
発行日:2023.12.18
著者:Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Qianyu Guo, Meng Wang, Haofen Wang
所属:Tongji University, Fudan University
論文メモ
どんなもの?
先行研究と比べてどこがすごい?
技術や手法のキモはどこ?
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
論文を読んで感じたこと
introductionめっちゃ勉強になった
RAGがなぜ必要になったか?外部知識をモデルのパラメータに保存することはなぜ悪手か?
概要
大規模言語モデル(LLM)は顕著な能力を示していますが、幻覚、時代遅れの知識、そして透明性のない追跡不可能な推論プロセスといった課題に直面しています。RAGは、LLMの応答に外部データベースからのリアルタイムデータを組み込むことでこれらの問題に対処する有望な解決策として登場しました。これにより、特に知識集約的なタスクにおいてモデルの正確性と信頼性が向上し、継続的な知識の更新とドメイン固有情報との統合が可能になります。RAGは、LLMの内在的知識と外部データベースの広大で動的なリポジトリを相乗的に統合します。この論文では、RAGの進化について深く分析し、ナイーブRAG、アドバンストRAG、モジュラーRAGの3つの主要なパラダイムに焦点を当てています。また、RAGシステムの3つの基本的なコンポーネントであるリトリバー、ジェネレーター、および拡張方法を徹底的に検討し、それぞれのコンポーネント内の最先端技術を強調しています。さらに、この論文は、RAGモデルを評価するための新しい指標と能力、および最新の評価フレームワークを紹介しています。最後に、論文は、今後の課題、モダリティの拡張、およびRAG技術スタックとエコシステムの発展という3つの観点から将来の研究の方向性を概説しています。 Introduction
大規模言語モデル(LLM)は、これまでの自然言語処理(NLP)において見られたものよりも強力です。GPTシリーズ、LLamaシリーズ、Geminiなどの他の大規模言語モデルは、複数の評価ベンチマーク(GLUE, MMLU, Big-bench)で人間のベンチマークレベルを超える印象的な言語と知識の習得を示しています。 しかし、大規模言語モデルには多くの短所もあります。しばしば事実を作り上げ、特定のドメインや高度に専門化されたクエリを扱う際に知識が不足しています。たとえば、求められる情報がモデルのトレーニングデータを超えたり、最新のデータが必要な場合、LLMは正確な答えを提供できないかもしれません。この制限は、実際の生産環境で生成AIを導入する際の課題です。ブラックボックスとしてのLLMを盲目的に使用するだけでは十分ではありません。
従来、ニューラルネットワークは特定のドメインや独自情報に適応するために、モデルを微調整して知識をパラメータ化する技術を使用してきました。この技術は重要な結果をもたらしますが、膨大な計算リソースを要求し、高いコストがかかり、専門的な技術的知識を必要とします。これにより、進化する環境についていけなくなります。パラメトリック知識と非パラメトリック知識は異なる役割を果たします。パラメトリック知識はLLMのトレーニングを通じて獲得され、ニューラルネットワークの重みに保存され、トレーニングデータの理解と一般化を表し、生成された応答の基盤を形成します。一方、非パラメトリック知識は、ベクトルDBなどの外部知識源に存在し、モデルに直接エンコードされるのではなく、更新可能な補足情報として扱われます。非パラメトリック知識はLLMに最新またはドメイン固有の情報にアクセスし、活用する力を与え、応答の精度と関連性を高めます。 純粋にパラメータ化された言語モデル(LLM)は、広大なコーパスから獲得された世界知識をモデルのパラメータに保存します。しかし、そのようなモデルには制限があります。第一に、トレーニングコーパスからのすべての知識を保持することは困難であり、特に一般的でない、より具体的な知識についてはなおさらです。第二に、モデルパラメータは動的に更新できないため、パラメトリック知識は時間とともに時代遅れになる可能性があります。第三に、パラメータの拡大は、トレーニングと推論の両方において計算コストの増加をもたらします。パラメータ化されたモデルの制限に対処するために、言語モデルは、パラメータ化されたモデルと非パラメータ化されたコーパスデータベースを統合する半パラメータ化されたアプローチを採用することができます。このアプローチは、RAGとして知られています。 検索拡張生成(RAG)という用語は、RAG論文よって初めて導入されました。これは、事前訓練されたリトリバーと事前訓練されたseq2seqモデル(ジェネレーター)を組み合わせ、より解釈可能でモジュラーな方法で知識を捉えるために、エンドツーエンドの微調整を行います。大規模モデルの登場前は、RAGはエンドツーエンドモデルの直接最適化に主に焦点を当てていました。リトリバル側の密な検索、例えばベクトルベースのDense Passage Retrieval(DPR)の使用、および生成側の小さなモデルへのトレーニングが一般的な実践です。全体的なパラメータサイズが小さいため、リトリバーとジェネレーターは通常、同期されたエンドツーエンドのトレーニングまたは微調整を受けます。 ChatGPTのようなLLMの出現後、生成型言語モデルが主流となり、さまざまな言語タスクで印象的なパフォーマンスを示しました。しかし、LLMはまだ幻覚、知識の更新、データ関連の問題などの課題に直面しています。これはLLMの信頼性に影響を与え、特に知識集約的なタスク、例えばオープンドメインの質問応答や常識推論など、一部の重要なタスクシナリオでの対応に苦労しています。パラメータ内の暗黙の知識は不完全で不十分かもしれません。
モデルのICL(コンテキスト内学習: In Context Learning)は、前述の問題を軽減し、実装が容易で大きな効果を持ちます。推論プロセス中に、RAGは外部の知識源から情報を動的に取得し、取得したデータを回答の整理に参照として使用します。これは、応答の正確性と関連性を大幅に向上させ、LLMに存在する幻覚的な問題を効果的に対処します。この技術は、LLMの登場後すぐに注目を集め、チャットボットを改善し、LLMをより実用的にするための最もホットな技術の一つとなりました。RAGは、事実上の知識をLLMのトレーニングパラメータから分離し、生成モデルの強力な能力と検索モジュールの柔軟性を巧みに組み合わせ、純粋にパラメータ化されたモデルに固有の知識問題に対する効果的な解決策を提供します。 この論文は、現在のRAGの研究アプローチと将来の発展の道筋を体系的にレビューし、分析し、ナイーブRAG、アドバンスドRAG、モジュラーRAGという3つの主要なパラダイムにまとめています。その後、論文は3つの核心コンポーネント:検索、拡張、生成に関する統合された要約を提供し、RAGの改善方向と現在の技術的特徴を強調しています。拡張方法に関するセクションでは、RAGの拡張段階、拡張データソース、拡張プロセスに関する現在の作業を整理しています。さらに、論文はRAGに関連する評価システム、適用シナリオ、およびその他の関連コンテンツをまとめています。この記事を通じて、読者は大規模モデルと検索拡張生成についてより包括的で体系的な理解を得ることができます。彼らは知識検索拡張の進化の道筋と主要技術に精通し、異なる技術の利点と欠点を識別し、適用可能なシナリオを特定し、実際に現在の典型的な応用ケースを探求することができます。注目すべきは、以前の研究では、Fengらは大規模モデルと知識の組み合わせに関する方法、応用、および今後の傾向について体系的にレビューし、主に知識編集および検索拡張方法に焦点を当てていました。朱らは、大言語モデルのための検索システムを拡張する最新の進歩について紹介し、特に検索システムに焦点を当てました。一方、浅井らは、「何を」「いつ」「どのように」といった質問に焦点を当て、検索ベースの言語モデルの主要なプロセスを分析し、解明しました。
これらと比較して、この論文は、検索拡張生成(RAG)の全プロセスを体系的に概説し、特に知識検索を通じて大言語モデルの生成を拡張する研究に特に焦点を当てています。RAGアルゴリズムとモデルの開発は図1に示されています。タイムライン上では、RAGに関連するほとんどの研究が2020年以降に登場し、2022年12月にChatGPTがリリースされた時が大きな転換点となりました。
ChatGPTのリリース以降、自然言語処理分野の研究は大規模モデルの時代に入りました。ナイーブRAG技術はすぐに注目を集め、関連する研究の数が急速に増加しました。強化戦略に関しては、RAGの概念が導入されて以来、事前トレーニングと監督付きファインチューニングの段階での強化に関する研究が継続されています。しかし、推論段階での強化に関する研究のほとんどはLLMの時代に登場しました。これは主に、高性能の大規模モデルに関連する高いトレーニングコストによるものです。研究者たちは、推論段階でRAGモジュールを含むことにより、外部知識をコスト効率よく組み込むことでモデル生成を強化しようと試みています。拡張データの使用に関しては、初期のRAGは特にオープンドメインの質問応答の文脈で非構造化データの適用に主に焦点を当てていました。その後、検索のための知識源の範囲が拡大し、高品質のデータを知識源として使用することで、大規模モデルにおける誤った知識の内部化や幻覚などの問題を効果的に対処しています。これには構造化された知識が含まれ、 ナレッジグラフが代表的な例です。最近では、LLM自体の知識を掘り下げてパフォーマンスを向上させる自己検索に注目が集まっています。 この論文の後続の章は以下のように構成されています:第2章ではRAGの背景について紹介します。第3章ではRAGの主流パラダイムを紹介します。第4章ではRAGのリトリーバーを分析します。第5章ではRAGのジェネレーターに焦点を当てて紹介します。第6章ではRAGの拡張方法の紹介を強調します。第7章ではRAGの評価システムを紹介します。第8章ではRAGの将来の発展傾向についての展望を提供します。最後に、第9章では調査の主な内容をまとめます。
まとめ