ReAct論文
SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
要約
大規模言語モデル(LLM)は、言語理解や対話的意思決定などのタスクにおいて目覚ましい性能を発揮しているが、推論(思考の連鎖の促しなど)と行動(行動計画の生成など)の能力は、主に別々のテーマとして研究されてきた。この論文では、推論トレースとタスク固有のアクションの両方をインターリーブ方式で生成するLLMの使用を探求し、2つの間の相乗効果を高めることを可能にする。推論トレースは、モデルがアクションプランを誘導、追跡、更新し、例外を処理するのに役立つ一方、アクションは、知識ベースや環境などの外部ソースとのインタフェースと追加情報の収集を可能にする。我々は、ReActと名付けられた我々のアプローチを、多様な言語タスクと意思決定タスクに適用し、人間による解釈可能性と信頼性の向上に加えて、最新のベースラインに対する有効性を実証する。具体的には、質問応答(HotpotQA)と事実検証(Fever)において、ReActはシンプルなWikipedia APIと対話することで、思考連鎖推論における幻覚とエラー伝播の一般的な問題を克服し、推論トレースのないベースラインよりも解釈可能な人間らしいタスク解決軌跡を生成する。さらに、2つの対話的意思決定ベンチマーク(ALFWorldとWebShop)において、ReActは、1つか2つの文脈内の例でプロンプトされるだけで、模倣と強化学習法を、それぞれ34%と10%の絶対成功率で上回る。