ReAct論文
https://scrapbox.io/files/6584f9f87e30d20024f11232.png
論文情報
タイトル:ReAct: Synergizing Reasoning and Acting in Language Models
著者:Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
所属:Princeton University, Google Research
発行日:2022年10月
論文のポイント
ReActは、推論と行動を交互に生成する
推論は、モデルが行動計画を誘導、追跡、更新するのを助け
行動は、外部ソース(知識や環境)と接点を持ち、追加情報の収集を可能にする
最も優れたアプローチは、推論中に内部知識と外部から得られた情報の両方を使用できるReActとCoTの組み合わせ
https://scrapbox.io/files/65c5804d4a912000245191b0.png
外部知識の活用により、ハルシネーション(幻覚)が大きく低下
https://scrapbox.io/files/65c584ec6258b3002453aad9.png
CoTにとって幻覚は深刻な問題であり、成功モードでのReActに比べてはるかに高い偽陽性率をもたらします(14%対6%)、そしてその主な失敗モードを構成している(56%)。
対照的に、ReActの問題解決軌跡は、外部の知識ベースへのアクセスのおかげで、より地に足がついており、事実に基づき、信頼できます。
一方で、ReActは、推論->行動->制約という凝り固まった制約のため、CoTより推論エラーが起きやすくなる
以前の思考と行動を繰り返しループから抜け出せないなど
ReAct + CoT-SCがLLMのプロンプティングに最適 https://scrapbox.io/files/65c587afa13054002529ec34.png
https://scrapbox.io/files/65c58a5178e6fa0026d0167c.png
概要
大規模言語モデル(LLM)は、言語理解やインタラクティブな意思決定のタスク全般にわたって印象的なパフォーマンスを発揮していますが、推論(例えば、CoT (Chain-of-Thought)プロンプティング)や行動(例えば、行動計画の生成)に対するその能力は、主に別々のトピックとして研究されてきました。本論文では、LLMを使用して推論トレースとタスク固有の行動を交互に生成することで、両者の間により大きな相乗効果をもたらすことを探求します。推論トレースは、モデルが行動計画を誘導、追跡、更新するのを助け、例外を処理する一方で、行動はそれが外部ソース(例えば、知識ベースや環境)とインターフェースを持ち、追加情報を収集することを可能にします。私たちは、ReActと名付けたアプローチを、言語および意思決定タスクの多様なセットに適用し、最先端のベースラインに対するその効果を実証するとともに、改善された人間の解釈可能性と信頼性を示します。具体的には、質問応答(HotpotQA)と事実検証(Fever)において、ReActは単純なWikipedia APIとの相互作用により、連鎖思考推論の幻覚やエラー伝播といった一般的な問題を克服し、推論トレースがないベースラインよりも解釈可能な、人間らしいタスク解決軌跡を生成します。さらに、インタラクティブな意思決定ベンチマーク(ALFWorldおよびWebShop)において、ReActは模倣および強化学習方法をそれぞれ絶対成功率で34%および10%上回り、わずか1つまたは2つの文脈内の例でプロンプトされるだけでこの成果を達成します。 1 導入
人間の知能のユニークな特徴は、タスク指向の行動と言葉による推論(または内言)をシームレスに組み合わせる能力であり、これは自己調整や戦略立てを可能にし、作業記憶を維持するために人間の認知で重要な役割を果たすとされています。例えば、キッチンで料理を作る場合を考えてみましょう。特定の2つの行動の間で、私たちは進行状況を追跡するため(「すべてを切ったので、鍋の水を温めるべきだ」)、状況に応じて計画を調整または例外を処理するため(「塩がないので、代わりに醤油とコショウを使おう」)、外部情報が必要になったことを認識するため(「どうやって生地を準備するのか?インターネットで検索しよう」)に、言葉で推論を行います。また、推論をサポートし、質問に答えるために行動もします(レシピを読むために料理本を開く、冷蔵庫を開く、材料をチェックするなど)。この「行動」と「推論」の間の密接な相乗効果により、人間は新しいタスクを迅速に学習し、未知の状況に直面しても、または情報の不確実性の下でも、堅牢な意思決定や推論を行うことができます。
最近の結果は、自律システムでの言葉による推論とインタラクティブな意思決定の組み合わせの可能性を示唆しています。一方で、適切にプロンプトされた大規模言語モデル(LLM)は、算数、常識、象徴的推論タスクの質問から答えを導き出すために、複数ステップの推論トレースを行う新たな能力を示しています(Wei et al., 2022)。しかし、この「思考の連鎖」推論は静的なブラックボックスであり、モデルは自身の内部表現を使用して思考を生成し、外部の世界に基づいていないため、反応的に推論したり、その知識を更新したりする能力が限られます。これは、推論プロセス全体にわたって事実の幻覚やエラーの伝播といった問題につながる可能性があります(Figure 1 (1b))。
https://scrapbox.io/files/65c56b338267dc00250b2014.png
一方で、インタラクティブな環境での計画立てや行動に言語モデルを使用することを探求した最近の研究があります。これらのアプローチは通常、マルチモーダルな観察をテキストに変換し、言語モデルを使用してドメイン固有の行動や計画を生成し、その後、それらを選択または実行するためにコントローラーを使用します。しかし、これらは言語モデルを使用して高レベルの目標について抽象的に推論したり、行動をサポートするために作業記憶を維持したりすることはありません。Huang et al. (2022b)が現在の状態に関する空間的事実を繰り返すために限定的な形の言葉による推論を行うことを除き、いくつかのブロックと対話するような単純な具体化されたタスクを超えて、推論と行動を一般的なタスク解決のために相乗的な方法で組み合わせる方法や、そのような組み合わせが単独での推論や行動と比較して体系的な利点をもたらすかどうかについての研究はありませんでした。
この研究では、言語モデルを使用して多様な言語推論および意思決定タスクを解決するために推論と行動を組み合わせる一般的なパラダイムであるReActを提示します(Figure1)
https://scrapbox.io/files/65c571480b739500254f3bb2.png
ReActはLLMにプロンプトして、タスクに関連する言葉による推論トレースと行動の両方を交互に生成させ、これによりモデルが動的な推論を行い、行動のための高レベルの計画を作成、維持、調整することを可能にします(理由から行動へ)、さらに外部環境(例えば、Wikipedia)と相互作用して推論に追加情報を取り込むこともできます(行動から理由へ)。私たちは、ReActと最先端のベースラインを4つの多様なベンチマークで実証的に評価します:質問応答(HotPotQA, )、事実検証(Fever, )、テキストベースのゲーム(ALFWorld)、およびウェブページナビゲーション(WebShop)。HotPotQAとFeverについては、モデルが相互作用できるWikipedia APIにアクセスすることにより、ReActはバニラアクション生成モデルを上回り、CoT (Chain-of-Thought)と競合します。全体として最も優れたアプローチは、推論中に内部知識と外部から得られた情報の両方を使用できるReActとCoTの組み合わせです。ALFWorldとWebShopでは、2回または1回のReActプロンプティングで、10^3〜10^5のタスクインスタンスで訓練された模倣または強化学習方法を上回り、それぞれ絶対的な成功率で34%および10%の改善を達成できます。私たちはまた、行動のみの制御されたベースラインに対して一貫して利点を示すことにより、意思決定における疎な多様な推論の重要性を示します。一般的な適用性とパフォーマンスの向上に加えて、推論と行動の組み合わせは、モデルの内部知識と外部環境からの情報を区別しやすくし、推論トレースを検査してモデルの行動の決定基準を理解することができるため、すべてのドメインでモデルの解釈可能性、信頼性、および診断可能性に貢献します。 要約すると、私たちの主な貢献は次のとおりです:
(1)一般的なタスク解決のために言語モデルで推論と行動を統合するための新しいプロンプトベースのパラダイムであるReActを紹介します;
(2)多様なベンチマークを通じて広範な実験を行い、単独で推論またはアクション生成を行う以前のアプローチよりもFew-Shot学習セットアップでReActの利点を示します; (3)推論タスクにおける行動の重要性、およびインタラクティブタスクにおける推論の重要性を理解するための体系的な除去実験と分析を提示します;
(4)プロンプティング設定(つまり、推論と行動の行動の限定的なサポート)の下でのReActの制限を分析し、追加の訓練データでReActが改善される可能性を示す初期の微調整実験を実施します。ReActをより多くのタスクで訓練し、運用するためにスケールアップし、強化学習のような補完的なパラダイムと組み合わせることで、大規模言語モデルの潜在能力をさらに引き出すことができます。
2 ReAct: 推論 + 行動のシナジー
タスク解決のために環境と相互作用するエージェントの一般的な設定を考えてみましょう。時刻tにおいて、エージェントは環境から観測ot ∈ Oを受け取り、ある方針π(at|ct)に従って行動at ∈ Aを取ります。ここで、ct = (o1, a1, · · · , ot-1, at-1, ot)はエージェントにとっての文脈です。ct 7→ atのマッピングが非常に暗黙的であり、広範な計算を必要とする場合、方針を学習することは困難です。たとえば、Figure 1(1c)に示されたエージェントは、軌跡文脈(質問、行動1-3、観測1-3)を通じた複雑な推論を必要とするため、QAタスクを完了するための正しい最終行動(行動4)を生成することができません。同様に、Figure 1(2a)に示されたエージェントは、文脈からsinkbasin 1にpeppershaker 1が含まれていないことを理解できず、幻覚的な行動を繰り返します。
ReActのアイデアはシンプルです:私たちはエージェントの行動空間をAˆ = A ∪ Lに拡張します。ここで、Lは言語の空間です。言語空間内の行動aˆt ∈ Lは、思考または推論トレースとして言及され、外部環境に影響を与えず、したがって観測フィードバックをもたらしません。代わりに、思考aˆtは現在の文脈ctを推論し、有用な情報を構成し、未来の推論や行動をサポートするために文脈ct+1 = (ct, aˆt)を更新することを目指します。図1に示されているように、様々なタイプの有用な思考があり得ます。例えば、タスクの目標を分解し、行動計画を作成する(2b、行動1; 1d、思考1)、タスク解決に関連する常識知識を注入する(2b、行動1)、観測から重要な部分を抽出する(1d、思考2, 4)、進捗を追跡し、行動計画を移行する(2b、行動8)、例外を処理し、行動計画を調整する(1d、思考3)などです。
しかし、言語空間Lは無限であるため、この拡張された行動空間での学習は困難であり、強力な言語の事前知識が必要です。この論文では、凍結された大規模言語モデル、PaLM-540B(Chowdhery et al., 2022)を、少数の文脈内の例をプロンプトとして使用し、タスク解決のためのドメイン固有の行動と自由形式の言語思考の両方を生成する設定に主に焦点を当てます(図1(1d)、(2b))。各文脈内の例は、タスクインスタンスを解決するための行動、思考、および環境観測の人間の軌跡です(付録Cを参照)。推論が主要な重要性を持つタスク(図1(1))では、タスク解決軌跡が複数の思考-行動-観測ステップで構成されるように、思考と行動の生成を交互に行います。対照的に、大量の行動を伴う可能性のある意思決定タスク(図1(2))では、軌跡の最も関連する位置に思考がまばらに現れるだけでよいため、言語モデルに思考と行動の非同期発生を自ら決定させます。
意思決定と推論の能力が大規模言語モデルに統合されているため、ReActはいくつかのユニークな特徴を享受します:
A)直感的で設計が簡単:ReActプロンプトの設計は、人間のアノテーターが行動に加えて言語で自分の思考をただ書き留めるだけで直感的です。この論文では、特定のフォーマットの選択、思考のデザイン、または例の選択は使用されていません。各タスクのプロンプトデザインの詳細は、セクション3および4で説明します。
B)一般的で柔軟:柔軟な思考空間と思考-行動発生フォーマットのため、ReActはQA、事実検証、テキストゲーム、ウェブナビゲーションなど、異なる行動空間と推論ニーズを持つ多様なタスクに適用できます。
C)パフォーマンスが高く堅牢:ReActは、1から6の文脈内の例からのみ学習しながら、新しいタスクインスタンスに対して強力な一般化を示し、異なるドメインでのみ推論または行動のベースラインを一貫して上回ります。セクション3では、微調整が有効になった場合の追加の利点を示し、セクション4では、プロンプトの選択に対するReActのパフォーマンスが堅牢であることを示します。
D)人間と一致し、制御可能:ReActは、人間が容易に推論と事実の正確さを検査できる解釈可能な連続的な意思決定と推論プロセスを約束します。さらに、セクション4の図5に示されているように、思考の編集によって、人間は途中でエージェントの行動を制御または修正することもできます。
3 知識集約型推論タスク
私たちは、マルチホップの質問応答や事実検証のような知識集約型の推論タスクから始めます。Figure 1(1d)に示されているように、Wikipedia APIとの相互作用によって、ReActは推論をサポートするための情報を取得すると同時に、次に何を取得するかを目指して推論を使用することができ、推論と行動のシナジーを示します。
3.1 設定
ドメイン
私たちは、知識の取得と推論に挑戦的な2つのデータセットを考慮します:(1)HotPotQA(Yang et al., 2018)、2つ以上のWikipediaパッセージを越えて推論を必要とするマルチホップの質問応答ベンチマーク、および(2)FEVER(Thorne et al., 2018)、各主張がSUPPORTS、REFUTES、またはNOT ENOUGH INFOと注釈され、Wikipediaのパッセージが主張を検証するために存在するかどうかに基づいています。この作業では、両方のタスクについて、モデルが質問/主張のみを入力として受け取り、サポートパラグラフにアクセスせず、内部知識に依存するか、推論をサポートするために外部環境と相互作用して知識を取得する必要がある、質問のみの設定で操作します。 行動空間
私たちは、対話型情報取得をサポートするために、3種類の行動を持つシンプルなWikipediaウェブAPIを設計します:
(1)search(entity)
対応するエンティティのWikiページから最初の5文を返すか、存在しない場合はWikipedia検索エンジンからトップ5の類似エンティティを提案します、
(2)lookup(string)
文字列を含むページの次の文を返し、ブラウザ上のCtrl+F機能をシミュレートします
(3)finish(answer)
回答で現在のタスクを終了します。この行動空間は、正確なパッセージ名に基づいてパッセージの一部分のみを取得できるため、最先端の語彙的またはニューラルなリトリバーと比較してかなり弱いことに注意してください。その目的は、人間がWikipediaとどのように相互作用するかをシミュレートし、モデルが言語で明示的な推論を通じて取得を強制することです。
3.2 方法
ReAct プロンプト
HotpotQAおよびFeverのためのReActプロンプティングでは、トレーニングセットからランダムに6件と3件を選び、プロンプトで使用するためのReActフォーマットの軌跡を手動で構成します。図1(d)と同様に、各軌跡は複数の思考-行動-観測ステップ(つまり、密な思考)で構成され、自由形式の思考がさまざまな目的で使用されます。具体的には、質問を分解する思考(「xを検索し、yを見つけ、その後zを見つける必要がある」)、Wikipediaの観測から情報を抽出する思考(「xは1844年に始まった」、「この段落はxについて述べていない」)、常識(「xはyではないので、代わりにzでなければならない...」)や算数の推論(「1844 < 1989」)、検索の再構成をガイドする思考(「代わりにxを検索/探すことができるかもしれない」)、最終的な答えを合成する思考(「...したがって、答えはxである」)を組み合わせて使用します。詳細は付録Cを参照してください。
https://scrapbox.io/files/65c57be2bf88df0025b84483.png
ベースライン
ReAct軌跡を体系的に除去して、複数のベースライン(Figure 1(1a-1c)のフォーマットで)のプロンプトを構築します:
(a)標準プロンプティング(Standard)、これはReAct軌跡内のすべての思考、行動、観測を取り除きます。
(c)行動のみのプロンプト(Act)、これはReAct軌跡内の思考を取り除き、WebGPT(Nakano et al., 2021)がインターネットと対話して質問に答える方法に似ていますが、異なるタスクと行動空間で操作し、プロンプティングの代わりに模倣と強化学習を使用します。
内部および外部の知識の組み合わせ
セクション3.3で詳述するように、ReActによって示される問題解決プロセスはより事実に基づき、地に足がついているのに対し、CoTは推論構造の形成においてより正確ですが、幻覚化された事実や思考に簡単に苦しむことがあります。そのため、ReActとCoT-SCを組み合わせ、以下のヒューリスティックに基づいて他の方法に切り替えるタイミングをモデルに決定させることを提案します:
A)ReAct → CoT-SC:ReActが与えられたステップ内で答えを返さない場合、CoT-SCに退避します。HotpotQAとFEVERについてはそれぞれ7ステップと5ステップを設定しました。
B)CoT-SC → ReAct:n CoT-SCサンプルの多数決の答えがn/2回未満である場合(つまり、内部知識がタスクを自信を持ってサポートしていない可能性がある)、ReActに退避します。
大規模に推論トレースと行動を手動でアノテートすることの課題を考慮し、Zelikman et al.(2022)に類似したブートストラッピングアプローチを検討し、ReActによって生成された3,000の軌跡(他のベースラインも含む)を使用して、小さな言語モデル(PaLM-8/62B)を微調整し、入力質問/主張に基づいて軌跡(すべての思考、行動、観測)をデコードします。詳細は付録B.1にあります。
3.3 結果と観察
ReActは一貫してActを上回ります
表1は、異なるプロンプティング方法を使用してPaLM-540BをベースモデルとしたHotpotQAとFeverの結果を示しています。
https://scrapbox.io/files/65c5804d4a912000245191b0.png
ReActは両方のタスクでActよりも優れており、特に最終的な答えを合成する際に、推論が行動を導く価値を示しています(図1 (1c-d)に示されているように)。微調整の結果も、より情報に基づいた行動のための推論トレースの利点を確認しています。
ReAct対CoT
一方、ReActはFeverでCoTを上回り(60.9対56.3)、HotpotQAではCoTにわずかに後れを取ります(27.4対29.4)。SUPPORTS/REFUTESのFeverの主張は、わずかな違いによってのみ異なる場合があるため(付録D.1を参照)、正確で最新の知識を取得するための行動が重要です。HotpotQAでReActとCoTの行動の違いをよりよく理解するために、ReActとCoTからそれぞれ正解と不正解の軌跡をランダムに50件ずつサンプリングし(合計200例)、表2にその成功と失敗のモードを手動でラベル付けしました。いくつかの主な観察結果は以下の通りです:
https://scrapbox.io/files/65c584ec6258b3002453aad9.png
A)CoTにとって幻覚化は深刻な問題であり、成功モードでのReActに比べてはるかに高い偽陽性率をもたらします(14%対6%)、そしてその主な失敗モードを構成します(56%)。対照的に、ReActの問題解決軌跡は、外部の知識ベースへのアクセスのおかげで、より地に足がついており、事実に基づき、信頼できます。
B)推論、行動、観測ステップを交互に行うことでReActの根拠と信頼性が向上する一方で、このような構造的な制約は、推論ステップを形成する柔軟性を低下させ、CoTよりも推論エラー率を高めます。ReActに特有の一般的なエラーパターンがあり、モデルが以前の思考と行動を繰り返し生成し、適切な次の行動を取るべきかについて推論し、ループから抜け出せないため、「推論エラー」として分類します。
C)ReActにとって、検索を通じて有益な知識を成功裏に取得することが重要です。情報に乏しい検索は、エラーケースの23%を占め、モデルの推論を脱線させ、思考を再構成し、回復するのが困難になります。これは、事実性と柔軟性の間の予想されるトレードオフであり、2つの方法を組み合わせる提案された戦略を動機付けます。
成功および失敗モードの各例を付録E.1に提供します。また、一部のHotpotQAの質問には、古い回答ラベルが含まれている可能性があることがわかりました(例を図4に示します)
https://scrapbox.io/files/65c586c9ba830d00243f29aa.png
ReAct + CoT-SCがLLMのプロンプティングに最適
表1にも示されているように、HotpotQAとFeverで最も優れたプロンプティング方法は、それぞれReAct → CoT-SCとCoT-SC → ReActです。さらに、Figure 2は、CoT-SCサンプルの数に応じて、異なる方法がどのようにパフォーマンスするかを示しています。2つのReAct + CoT-SC方法はそれぞれ1つのタスクで有利ですが、異なるサンプル数にわたってCoT-SCを一貫してかなり上回り、わずか3-5サンプルを使用して21サンプルのCoT-SCパフォーマンスに到達します。これらの結果は、推論タスクのためのモデルの内部知識と外部知識を適切に組み合わせる価値を示しています。
https://scrapbox.io/files/65c587afa13054002529ec34.png
Figure 3は、HotpotQAにおいて四つの方法(Standard、CoT、Act、ReAct)のプロンプティング/微調整のスケーリング効果を示しています。
https://scrapbox.io/files/65c588da76f9e0002439c244.png
PaLM-8/62Bを使用した場合、文脈内の例から推論と行動の両方を学習する難しさのため、プロンプティングされたReActのパフォーマンスは四つの方法の中で最も悪いです。しかし、わずか3,000の例でファインチューニングした場合、ReActは四つの方法の中で最も優れた方法になり、PaLM-8B微調整ReActはすべてのPaLM-62Bプロンプティング方法を上回り、PaLM-62B微調整ReActはすべての540Bプロンプティング方法を上回ります。対照的に、StandardやCoTのファインチューニングは、ReActやActのファインチューニングよりもPaLM-8/62Bで著しく悪いです。前者は基本的にモデルに(潜在的に幻覚的な)知識の事実を記憶させ、後者はモデルにWikipediaから情報にアクセスする方法を(推論し、)行動する方法を教えるため、知識推論のためのより一般化可能なスキルです。すべてのプロンプティング方法がまだドメイン固有の最先端のアプローチから著しく遠いことを考えると(表1)、より多くの人間によるデータでファインチューニングすることがReActの力を解き放つより良い方法であると考えられます。 4 意思決定タスク
また、ALFWorldおよびWebShopの2つの言語ベースのインタラクティブ意思決定タスクでReActをテストしました。これらはいずれも、エージェントが長期間にわたって行動し、希薄な報酬で効果的に行動し、探索するために推論が必要な複雑な環境を特徴としています。
ALFWorld
ALFWorldは、ALFREDベンチマーク(Shridhar et al., 2020a)と整合するように設計された合成テキストベースのゲームです。これには、エージェントがテキストアクション(例:コーヒーテーブル1に行く、ペーパー2を取る、デスクランプ1を使用する)を通じてシミュレートされた家庭環境をナビゲートし、相互作用することで高レベルの目標(例:デスクランプの下で紙を調べる)を達成する必要がある6種類のタスクが含まれています。タスクインスタンスには50以上の場所があり、専門家の方針で解決するのに50ステップ以上かかることがあり、エージェントにとってサブゴールを計画し、追跡し、体系的に探索する(例:デスクランプのためにすべての机を一つずつチェックする)という課題となります。特に、ALFWorldに組み込まれた課題の一つは、一般的な家庭用品の可能性のある場所を特定する必要性です(例:デスクランプは机、棚、またはドレッサーにありそうです)、これはLLMが事前に訓練された常識知識を活用するのに適した環境です。ReActをプロンプトするために、我々はトレーニングセットから各タスクタイプごとに3つの軌跡をランダムに注釈付けし、各軌跡には(1)目標を分解する、(2)サブゴールの完了を追跡する、(3)次のサブゴールを決定する、(4)物体をどこで見つけ、それをどうするかについて常識を通じて推論するといった希薄な思考が含まれます。ALFWorld用のプロンプトは付録C.4に示されています。Shridhar et al.(2020b)に従い、134の未見の評価ゲームでタスク固有の設定で評価を行います。堅牢性のために、我々は3つの注釈付けされた軌跡から2つを選んだ各タスクタイプごとに6つのプロンプトを構築します。Actプロンプトは同じ軌跡を使用して構築されますが、思考は含まれていません。 WebShop
実用的なアプリケーションのためにReActは騒がしい実世界の言語環境とも対話できるでしょうか?我々はWebShop(Yao et al., 2022)を調査しました。これは、1.18Mの実世界製品と12kの人間の指示を含む最近提案されたオンラインショッピングウェブサイト環境です。WebShopは、Amazonからクロールされた製品のタイトル、説明、オプションなど、構造化されたテキストと非構造化テキストの高いバラエティを含んでおり、エージェントがウェブインタラクション(例:「ナイトスタンド引き出し」を検索する、「色:モダンニッケルホワイト」のようなボタンを選択する)を通じてユーザーの指示に基づいて製品を購入することを要求します。このタスクは、選択された製品によってカバーされる望ましい属性の割合の平均スコアと、選択された製品がすべての要件を満たすエピソードの割合の成功率で評価されます。我々は検索、製品選択、オプション選択、購入といった行動を含むActプロンプトを定式化し、ReActプロンプトはさらに何を探索するか、いつ購入するか、どの製品オプションが指示に関連するかを推論するための追加の希薄な推論を含みます。
結果
ReActはALFWorld(表3)とWebshop(表4)の両方でActを上回ります。ALFWorldでは、最高のReAct試行が平均成功率71%を達成し、最高のAct(45%)とBUTLER(37%)の試行を大幅に上回ります。事実、より悪いReActの試行でさえ(48%)、両方の方法の最高の試行を上回ります。さらに、ReActは6つの制御された試行全体でActに対して一貫して優位性を持ち、相対的なパフォーマンスの利得は33%から90%の範囲で平均62%です。質的には、思考がまったくない状態で、Actは目標をより小さなサブゴールに正しく分解することができず、または環境の現在の状態を追跡することができませんでした。ReActとActを比較した例の軌跡は、付録D.2.1と付録D.2.2で見ることができます。
https://scrapbox.io/files/65c58a5178e6fa0026d0167c.png
WebShopでは、ワンショットActプロンプティングは既にILおよびIL+RL方法と同等のパフォーマンスを発揮します。追加の希薄な推論を持つReActは、以前の最高の成功率を10%絶対的に改善することで、著しく優れたパフォーマンスを達成します。例をチェックすることで、ReActは騒がしい観測と行動の間のギャップを推論することで、指示に関連する製品とオプションを特定する可能性が高いことがわかります。しかし、既存の方法はまだ専門家の人間のパフォーマンス(表4)から遠く、プロンプティングベースの方法にとってまだ挑戦的であるより多くの製品探索とクエリ再構成を実行します。
内部推論と外部フィードバックの価値
ReActは、インタラクティブな環境内でLLMを使用した推論と行動の組み合わせを閉ループシステムで初めて実証したものです。おそらく最も近い先行研究は、Huang et al.(2022b)のInner Monologue(IM)で、内名で名付けられた「内部モノローグ」によって動機付けられた身体化されたエージェントの行動です。しかし、IMの「内部モノローグ」は環境状態の観察とエージェントが目標を満たすために完了する必要があるものに限定されています。対照的に、ReActの推論トレースは、柔軟で希薄であり、異なるタスクに対してさまざまな推論タイプ(セクション2を参照)を誘発することができます。
ReActとIMの違いを示し、内部推論と外部フィードバックへの単純な反応の重要性を強調するために、IMのような密な外部フィードバックから構成された思考パターンを使用した除去実験を実施しました。表3で見られるように、ReActはIMスタイルのプロンプティング(ReAct-IM)を大幅に上回ります(全体の成功率で71対53)、6つのタスクのうち5つで一貫して利点があります。質的に見て、ReAct-IMはしばしばサブゴールが完了した時、または次のサブゴールが何であるべきかを特定することに失敗しました。これは高レベルの目標分解が欠如しているためです。さらに、多くのReAct-IMの軌跡は、アイテムがALFWorld環境内のどこにありそうかを特定することに苦労しました。これは常識的な推論が欠如しているためです。これらの短所はReActパラダイムで対処できます。ReAct-IMに関する詳細は関連する研究のセクションにあります。
5 関連研究
推論のための言語モデル LLMを推論に使用する最もよく知られた作業は、Chain-of-Thought (CoT) (Wei et al., 2022)であり、LLMが問題解決のための自分自身の「思考手順」を形成する能力を明らかにしました。以来、Least to Mostによる複雑なタスクの解決(Zhou et al., 2022)、Zero-Shot CoT(Kojima et al., 2022)、Self-Consistency(Wang et al., 2022a)を含むいくつかのフォローアップ作業が行われています。最近では、(Madaan & Yazdanbakhsh, 2022)がCoTの形成と構造を体系的に研究し、シンボル、パターン、テキストの存在がCoTの効果に不可欠であることを観察しました。その他の作業も、単純なプロンプティングを超えたより洗練された推論アーキテクチャに拡張されています。たとえば、Selection-Inference(Creswell et al., 2022)は推論プロセスを「選択」と「推論」の2つのステップに分けます。STaR(Zelikman et al., 2022)は、モデル自体によって生成された正しい根拠にモデルを微調整することで、推論プロセスをブートストラップします。Faithful reasoning(Creswell & Shanahan, 2022)は、複数ステップの推論を3つのステップに分解し、それぞれを専用のLMが実行します。中間計算ステップにLMを微調整するScratchpad(Nye et al., 2021)などの類似のアプローチも、複数ステップの計算問題における改善を示しています。これらの方法とは対照的に、ReActは単に孤立した固定された推論以上のことを行い、モデルの行動とそれに対応する観測をモデルがより正確に推論し、推論を超えたタスク(例えば、インタラクティブな意思決定)に対処するための一貫した入力ストリームに統合します。 意思決定のための言語モデル LLMの強力な能力により、言語生成を超えたタスクを実行できるようになり、特にインタラクティブな環境での意思決定のためのポリシーモデルとしてLLMを利用することがますます人気になっています。WebGPT(Nakano et al., 2021)は、ウェブブラウザと対話し、ウェブページをナビゲートし、ELI5(Fan et al., 2019)から複雑な質問に対する答えを推測するためにLMを使用しています。ReActと比較して、WebGPTは思考と推論手順を明示的にモデル化せず、強化学習のために高価な人間のフィードバックに依存しています。会話モデリングでは、BlenderBot(Shuster et al., 2022b)やSparrow(Glaese et al., 2022)などのチャットボットと、SimpleTOD(Hosseini-Asl et al., 2020)などのタスク指向の対話システムもAPIコールについて意思決定を行うためにLMを訓練しています。ReActとは異なり、これらも明示的に推論手順を考慮しておらず、ポリシー学習のために高価なデータセットと人間のフィードバック収集に依存しています。対照的に、ReActは推論手順の言語記述のみが必要であるため、意思決定プロセスをはるかに安価な方法で学習します。
6 結論
我々はReActを提案しました。これは、大規模言語モデルで推論と行動をシナジーさせるためのシンプルでありながら効果的な方法です。マルチホップの質問応答、事実確認、およびインタラクティブな意思決定タスクに関する多様な実験セットを通じて、ReActが解釈可能な意思決定トレースで優れたパフォーマンスをもたらすことを示しました。当社の方法の単純さにもかかわらず、大きなアクションスペースを持つ複雑なタスクは、うまく学習するためにより多くのデモンストレーションを必要としますが、これは残念ながら文脈内学習の入力長の制限を簡単に超える可能性があります。我々はHotpotQAでの微調整アプローチを初期の有望な結果で探求しましたが、より高品質の人間の注釈から学習することが、パフォーマンスをさらに向上させるための望ましいものです。ReActをマルチタスクトレーニングでスケールアップし、強化学習のような補完的なパラダイムと組み合わせることで、LLMのさらなるアプリケーションの可能性を解き放つ、より強力なエージェントが生まれるかもしれません。