Self-Discover論文
論文情報
タイトル:SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures
発行日:2024年2月
著者:Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng
所属:University of Southern California、Google DeepMind
論文のポイント
私たち人間が新しい問題に直面した時
以前の経験から、どの知識/スキルが役立つか探す
関連する知識とスキルを、タスクに適応する
問題の解決のために、複数の個々のスキルと知識を結びつける
複数の推論モジュールの強みから恩恵を受ける
計算上効率的。タスクレベルでの推論ステップをわずか3つ増やすだけ
タスク固有の、最適なプロンプトが得られる
ステージ1
ステージ2
提供された構造に従って各キーを埋めて最終回答に至るようにモデルに指示する
これで、与えられたタスクのすべてのインスタンスを解決するために発見された推論構造を単純に使用できる。
https://scrapbox.io/files/65c4818c0981990025667b52.png
論文を読んで感じたこと
実際にどうする?
概要
我々は、Self-Discoverという、LLMが複雑な推論問題に対処するために、タスク固有の推論構造を自己発見する一般的なフレームワークを導入する。このフレームワークの核心は、批判的思考やステップバイステップ思考などの複数の原子的推論モジュールを選択し、LLMがデコード中に従う明示的な推論構造にそれらを組み合わせる自己発見プロセスである。Self-Discoverは、Big-Bench-Hard、グラウンデッドエージェント推論、MATHなどの難易度の高い推論ベンチマークで、GPT-4とPaLM 2のパフォーマンスを、CoT (Chain-of-Thought)と比較して最大32%向上させる。さらに、Self-Discoverは、Self-Consistencyなどの推論集約型メソッドを20%以上上回りながら、推論計算量を10-40倍少なくする。最後に、自己発見した推論構造が、PaLM 2-LからGPT-4、そしてGPT-4からLlama2に至るまでのモデルファミリー全体で普遍的に適用可能であり、人間の推論パターンと共通点を持っていることを示す。 1. はじめに
Transformerによって駆動される大規模言語モデル(LLM)は、一貫したテキストの生成、および指示に従うという点で、印象的なブレークスルーを達成している。複雑な問題を推論し解決するLLMの能力を高めることを目指し、人間がどのように推論するかの認知理論から着想を得たさまざまなプロンプト方法が提案されている。例えば、Few-ShotおよびZero-Shot CoTは、人間がステップバイステップで問題を解決する方法に似ており、分解ベースのプロンプト( Least to Most, Drozdov et al., 2022; Patel et al., 2022; Hao et al., 2023; Khot et al., 2022)は、人間が複雑な問題を一連の小さなサブプロブレムに分解し、それらを一つずつ解決する方法に触発されている、そしてTake a Step Backは、人間がタスクの性質を反映して一般原則を導き出す方法にモチベートされている。しかし、根本的な限界は、各技術自体が原子的推論モジュールとして機能し、与えられたタスクをどのように扱うかのプロセスに関する暗黙の先行仮定を持っていることである。代わりに、我々は、各タスクがそれを効率的に解決するために関与する推論プロセスに固有のユニークな構造を持っていると主張する。たとえば、Least to Mostは、タスクの分解構造のため、シンボリック操作や組成的一般化のようなタスクを解決する際にCoTよりもはるかに効果的であることが示されている。 この論文は、各タスクに固有の推論構造を自己発見し、計算上非常に効率的であることを目指している。私たちのアプローチ、Self-Discoverは、問題解決のための推論プログラムを人間が内部的に考案する方法に触発されている。自然言語で記述された原子的推論モジュールのセットから、「サブタスクに分解する」と「批判的思考」など、ラベルのないLLMおよびタスク例を使用して、Self-Discoverはタスクに固有の一貫した推論構造を構成する(ステージ1)そして、発見された構造を使用してタスクのインスタンスを解決する(ステージ2)。ステージ1はタスクレベルで動作し、LLMがタスクのための推論構造を生成するために3つのアクションを使用してガイドする。ステージ2では、最終的なデコード中に、LLMは単純に自己発見した構造に従って最終回答に到達する。 Self-Discoverを使用して問題を解決することは、LLM推論の他の方法と比較していくつかの利点をもたらす。まず、発見された推論構造は原子的推論モジュールに根ざしており、a prioriモジュール、例えばCoTを適用するのと比較して、複数の推論モジュールの強みから恩恵を受ける。次に、Self-Discoverは計算上効率的であり、タスクレベルでの推論ステップをわずか3つ増やすだけでありながら、Self-Consistencyなどの推論集約型アンサンブルアプローチよりもパフォーマンスが高い。最後に、発見された推論構造はタスクに固有であり、最適化されたプロンプト(Zhou et al., 2022b; Yang et al., 2023)よりも解釈可能な方法でLLMのタスクに関する洞察を伝える。 我々は、Big-Bench-Hard (BBH)、Thinking for Doing (T4D)(Zhou et al., 2023)およびMATH(Hendrycks et al., 2021)を含む25の難しい推論タスクでテストする。Self-Discoverは21/25のタスクでCoTを上回り、パフォーマンスの向上が最大42%(Figure 1)に達し、原子的推論モジュールから構成された自己発見した推論構造が、単一のa priori CoTモジュールに対する優位性を強調している。さらに、SELF-DISCOVERは、CoT + 自己一貫性や各モジュールの多数決といった推論集約型メソッドに対して優れたパフォーマンスを達成し、推論計算量を10-40倍少なくする(Figure 5)ことを示す。最後に、訓練セットを使用して最適化されたプロンプト(OPRO)とSelf-Discoverを比較する(Yang et al., 2023)(Figure 9)。我々は、Self-DiscoverがOPROと同等かそれ以上のパフォーマンスを維持しつつ、自己発見した推論構造がはるかに解釈可能であることを発見する。 Self-Discoverの有効性を理解するために一連の分析を行う。BBHタスクを4つの異なるカテゴリに分解することで、Self-Discoverが世界知識を必要とするタスクで最も優れたパフォーマンスを発揮し、アルゴリズムタスクに対してはCoTと比較して適度なパフォーマンス向上を達成することを発見する(Figure 4)。これは、MATHにおけるエラー分析によってさらに確認され、モデルの失敗の74.7%が計算エラー(例:数学)から来ていることが明らかになる。また、自己発見した推論構造をより詳細に見て、PaLM 2-LからGPT-4、そしてGPT-4からLlama-2-70Bへの転送可能性研究によって、それらの普遍性を示す。我々は、LLMを使用して難しい問題を解決するための構造化された推論に関する今後の研究を奨励したいと考えている。 2. 問題解決のための推論構造の自己発見
人間が問題を解決するために先行知識とスキルを利用して推論プログラムを考案する方法から着想を得ています。新しい問題に直面したとき、私たちはしばしばまず、以前の経験からどの知識とスキルが役立つかを内部で探します。次に、関連する知識とスキルをこのタスクに適用しようと試みます。そして最終的に、問題を解決するために複数の個々のスキルと知識を結びつけます。私たちは、これらのステップをFigure 2に示される2つのステージにまとめるSelf-Discoverを設計しました。 タスクと「批判的思考を使う」「ステップバイステップで考えよう」といった高レベルの問題解決ヒューリスティックを代表する推論モジュールの説明のセットが与えられた場合、SELF-DISCOVERのステージ1は、メタ推論を通じてこのタスクを解決するための固有の推論構造を明らかにすることを目指します。具体的には、ラベルやトレーニングを必要とせずに、行動可能な推論構造を選択し、適応し、実装するためにLLMをガイドする3つのメタプロンプトを使用します。構造は解釈可能性と、JSONに従うことが推論と生成品質を向上させるという発見(Zhou et al., 2023; OpenAI, 2023a)に基づいて、JSONに似たキーバリューペアでフォーマットされます。メタプロンプトと完全なプロンプトの構造は付録に示されています。
ステージ1はタスクレベルで動作し、つまり、各タスクについてSelf-Discoverを一度だけ実行する必要があります。その後、ステージ2では、提供された構造に従って各キーを埋めて最終回答に至るようにモデルに指示することで、与えられたタスクのすべてのインスタンスを解決するために発見された推論構造を単純に使用できます。 2.1 ステージ1: タスク固有の構造の自己発見
最初のステージは3つのアクションで構成されます:
1) SELECT、タスク解決のための関連する推論モジュールが推論モジュールの説明セットから選択される;
2) ADAPT、選択された推論モジュールの説明が手元のタスクにより具体的になるように言い換えられる;
3) IMPLEMENT、適応された推論の説明が構造に従ってタスクを解決できるように構造化された行動可能な計画に実装される。
https://scrapbox.io/files/65c4818c0981990025667b52.png
SELECT まず、すべての推論モジュールがすべてのタスクに役立つわけではないので、Self-Discoverの最初のステージは、タスクの例に基づいて役立つモジュールを選択するようにモデルをガイドします。例えば、「反映的思考」は科学問題における第一原理理論を探すのに役立つかもしれませんが、「創造的思考」は物語の新しい続きを生成するのに役立ちます。推論モジュールの説明D(例:「批判的思考」、「問題をサブプロブレムに分割する」(完全なセットは付録Aにあります))と、ラベルのないいくつかのタスク例ti ∈ Tが与えられた場合、Self-Discoverは最初に、モデルMとメタプロンプトpSを使用して、タスクを解決するのに役立つ推論モジュールのサブセットDSを選択します: DS = M(pS ∥ D ∥ ti)。(1)
ADAPT 各推論モジュールが問題を解決する方法の一般的な説明を提供しているため、Self-Discoverの次のステップは、選択された各モジュールを手元のタスクに特化させることを目指します。例えば、「問題をサブプロブレムに分割する」から算数問題のための「各算数操作を順番に計算する」に変更します。前のステップから選択された推論モジュールのサブセットDSが与えられた場合、ADAPTは選択されたモジュールの各々をタスクにより具体的に言い換えます。SELECTと同 様に、このステージはメタプロンプトpAと生成モデルMを使用して、適応された推論モジュールの説明DAを生成します:
DA = M(pA ∥ DS ∥ ti)。(2)
IMPLEMENT 最後に、適応された推論モジュールの説明DAが与えられた場合、Self-Discoverは推論モジュールを指定された指示に従って各ステップを生成するように実装された推論構造DIに実用化します。メタプロンプトpIに加えて、IMPLEMENTは、別のタスクに対する人間によって書かれた推論構造Shumanのデモンストレーションも提供し、自然言語の説明を推論構造によりよく変換するのに役立ちます: DI = M(pA ∥ Shuman ∥ DA ∥ ti)。(3)
2.2 ステージ2: 発見された構造を使用してタスクに取り組む
3つのステージの後、私たちはタスクを解決する必要があるTに特化して適応された実装された推論構造DIを持っています。その後、タスクのすべてのインスタンスに推論構造を単に追加し、モデルに推論構造に従って回答Aを生成するように促すことができます:
A = M(DS ∥ t), ∀t ∈ T。(4)
プロンプトの詳細は付録Aに含まれています。
3. 実験設定
3.1 タスク
我々は、LLMにとって依然として挑戦的な多様な推論ベンチマークに焦点を当てる。BIG-Bench Hard (BBH)(Suzgun et al., 2022)は、BIG-Bench(Srivastava et al., 2023)から慎重に選択された23の挑戦的なタスクを含んでいる。BBHタスクは、その著者によると、以下の4つのカテゴリにまたがる多様な範囲の推論問題をカバーしている:1) アルゴリズムと複数ステップの算数推論、2) 自然言語理解、3) 世界知識の使用、および4) 多言語知識と推論。また、モデルが精神状態の推論を活用して実行するアクションを決定する必要がある、Thinking for Doing (T4D)と呼ばれるグラウンデッドな社会エージェント推論タスクについてもテストする。ここでは、GPT-4 with CoTは約50%にしか達しない。最後に、MATH(Hendrycks et al., 2021)テストセットから200の例をサブサンプルし、MATHタスクの複雑さに適応するためにワンショットデモンストレーションを介してインスタンスレベルの推論構造を生成する。評価には、BBH、T4D、およびMATHでのモデルのパフォーマンスを測定するために正確さを使用する(詳細は付録Bにある)。
3.2 モデル
我々はいくつかの最先端のLLMを使用する:GPT-4 (gpt-4-turbopreview)(OpenAI, 2023b)、GPT-3.5-turbo(ChatGPT)(OpenAI, 2022)、指示チューニングされたPaLM 2-L(Anil et al., 2023)、そしてオープンソースのLLM Llama2-70B(Touvron et al., 2023)。
3.3 ベースライン
・直接プロンプト:中間推論ステップなしにモデルが直接答えを生成する。
・CoT(Wei et al., 2022; Kojima et al., 2022):モデルが最終回答に至る推論プロセスを生成するようにプロンプトされる。
・Plan-and-Solve(Wang et al., 2023):モデルが最初に計画を生成し、その後問題を解決するようにプロンプトされる。Self-Discoverは、推論構造を原子的推論モジュールに基づいて構築し、明示的なキーバリュー推論構造に従ってデコードをプロンプトすることで異なる。 次に、Self-Discoverに渡す原始シード推論モジュール(RM)を使用する他のベースラインを検討する。我々は、タスクのサブセットでのこれらの方法のパフォーマンスと推論コールの効率を比較する。 ・CoT-自己一貫性(Wang et al., 2022):CoTを使用してLLMから複数の出力をサンプリングし、回答を集約して最終回答を得る。繰り返しクエリのコストのために、我々はタスクのサブセットでこの方法を比較する。
・各RMの多数決:各RMを追加してモデルにタスクを解決させ、すべての回答の多数決を使用して最終回答を得る。複数のRMを一貫した推論構造に統合することが、各RMを使用してタスクを解決し、事後的にそれらをアンサンブルするために多数決を使用することよりも有利かどうかを検討する。これには、はるかに多くの推論計算が必要となる。
・各RMのベスト:この方法は、我々がオラクルラベルにアクセスできると仮定し、最高の正確さを使用する。
さらに、推論構造の普遍性に関する分析では、プロンプトを改善するためにトレーニングセットが必要なプロンプト最適化方法と比較する:LLM as optimizers (OPRO)(Yang et al., 2023)。我々は、一つのモデルから最適化された構造またはプロンプトを適用するとき、推論構造がプロンプトの言葉遣いよりも多くのパフォーマンス向上を維持できることを示すことを目指している。
4. 結果
実験結果を通じて、次の質問に答えます:1)推論構造を発見することはLLMの推論能力を向上させるか?(4.1)2)Self-Discoverはどのカテゴリの問題で最も優れているか?(4.2)そして3)Self-Discoverは効率的にLLMのパフォーマンスを向上させることができるか?(4.3)最後に、自己発見された構造、その構造に従ったLLMの出力、および他の推論方法に従ったLLMの出力との比較の定性的な例を示します(4.4)。 全体として、Self-Discoverは多様な推論タスクセット全体でPaLM 2-LとGPT-4の推論を改善する。表1は、PaLM 2-LとGPT-4を使用したBBH、T4D、およびMATHの複雑な推論タスクの全体的な結果を示している。直接プロンプト、CoT、およびPlan-and-Solve(PS)を含むベースラインとSelf-Discoverを比較する。 BBHの23のタスクの集約で、Self-DiscoverはPaLM 2-LでChain-of-ThoughtとPlan-and-Solveに対してそれぞれ7%および6%の絶対的な改善を達成する。GPT-4にSelf-Discoverを適用した場合にも同様の利得(6%および8%)が観察される。PaLM 2-Lの直接回答とCoTの各タスクの改善の内訳結果は図1に示され、Self-Discoverが20/24のタスクでそれらを上回っていることがわかる。23のBBHタスクすべてのタスクごとのパフォーマンスについては、付録Cを参照してください。 グラウンデッドなソーシャルエージェントタスクT4Dでは、Self-Discoverはすべてのベースラインに対してPaLM 2-L(GPT-4)で≥27%(32%)の絶対的な改善を達成する。Self-DiscoverはPaLM 2-LとGPT-4でそれぞれ69%および85%の正確さを達成し、専門家が設計した推論構造を使用するForesee and Reflect(FaR)などの以前のSoTAプロンプト方法を大幅に上回る。対照的に、Self-Discoverは人間の介入なしに原子的推論モジュールのセットから自動的に推論構造を生成する。 MATHでは、Self-Discoverがベースラインと比較してPaLM 2-L(GPT-4)で1%-7%(2%-3%)の穏やかな利得を観察する。エラー分析(詳細は付録Dを参照)では、Self-DiscoverによってPaLM 2-Lから生成された推論構造が87.5%の時間で正しいことがわかる:専門家は推論構造に従ってタスクを完璧に解決できる。失敗の大部分(74.7%)は計算の実行中のエラーから来ており、これは以前の発見(Zheng et al., 2023)と一致している。 Self-Discoverは、多様な世界知識を必要とするタスクで最も優れている。図4は、我々がテストした4つの推論タスクのカテゴリにおいて、直接回答とCoTに対するSelf-Discoverの正確さの平均改善を示している。Suzgun et al.(2022)からの分類を採用している。Self-Discoverはこれら2つのベースラインに対してすべてのカテゴリで改善されるが、特にスポーツの理解、映画の推薦、遺跡名など、世界知識を必要とするタスクで優れている。 これらのタスクは、モデルが事実と一般的な常識知識を使用して推論することを要求する。Self-Discoverがこれらのタスクでの利点は、CoTのみを適用すると推論プロセスで重要な知識を見逃す可能性があるが、様々な視点から複数の推論モジュールを統合する強みから来ていると解釈する。アルゴリズムカテゴリーの利得は穏やかであり、これはMATHに関するセクション4.1からの発見と一致している。 Self-Discoverは、自己一貫性や多数決に比べて10-40倍少ない推論計算でより良いパフォーマンスを達成する。ここでは、BBHから2つのタスクのサブセットを調べ、多くの推論コールを必要とするが、24のタスクすべてで実行するにはコストがかかりすぎる方法を含むより徹底的な方法の比較を提示する。図5は、GPT-4を使用して各方法のインスタンスごとに必要な平均的な正確さと推論コールの数を示している。 全体として、Self-Discoverは多様な推論タスクのセットでPaLM 2-LとGPT-4の推論を向上させます。CoT-自己一貫性や各RMを適用する多数決など、繰り返し推論コールが必要な他のベースラインをも上回ります。効率性の観点(x軸)からは、Self-Discoverはインスタンスごとに1回のコールとタスクレベルでさらに3回の推論コールのみを必要とし、CoT-自己一貫性はインスタンスごとに10回サンプリングする必要があるため10倍多くのコールが必要であり、各RMを使用する方法は40RMを使用するため40倍多くのコールが必要です。要するに、Self-Discoverは大規模に展開するのに効率的な強力な推論強化方法として自身を提示します。 4.4. 定性的な例
異なる推論タスクのためのモデルが発見した構造の例をPaLM 2-Lから図6に示します。各構造はタスクに特有に適応され、複数の推論モジュールを統合し、タスクを解決する方法についての洞察を提供します。さらに、CoT、Plan-and-Solve、およびSelf-Discoverからの推論プロセスを比較する例を図7に示します。CoTとPlan-and-Solveは早期に誤った主張を行い、誤った回答に至るのに対し、Self-Discoverからの構造に従うと、モデルが論理的な結論(「始点と終点の座標が同じであるため、パスは閉じている」)を生成し、正しい回答に至ります。 5. 自己発見された推論構造の深堀り
実験結果が多様な推論タスクでのSelf-Discoverの有効性と効率を示した後、このセクションではSelf-Discoverのすべてのアクションが必要か、および自己発見された構造がどのような他の利点をもたらすかをさらに分析します。セクション5.1では、SELECT、ADAPT、およびIMPLEMENTの3つのステップを通じて発見された推論構造を使用することがモデルのパフォーマンスにとって重要であることを示します。セクション5.2では、(1) PaLM 2-Lによって発見された構造をGPT-4に適用し、(2) GPT-4によって発見された構造をLlama2-70Bに適用することにより、自己発見された推論構造の普遍性を示します。さらに、推論構造と人間の推論パターンの共通点を付録Eで示します。 7. 結論
私たちは、一般的な問題解決スキルのシードセットから任意のタスクのための推論構造を自己発見するための効率的で高性能なフレームワークであるSelf-Discoverを紹介します。我々は、複数のLLMで最大30%までの挑戦的な推論ベンチマークで劇的な改善を観察しました。Self-Discoverのアブレーション研究は、構成された推論構造がLLM間で普遍的に転送可能であることを示しています。将来的には、問題解決の境界を押し広げ、人間とAIのコラボレーションの可能性を発見するために、LLMの構造化された推論についてさらに探求することに興奮しています。