Meta-CoT論文
https://scrapbox.io/files/6588e46a59d59f0024b7e5c0.png
論文情報
タイトル:Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models
著者:Anni Zou, Zhuosheng Zhang, Hai Zhao, Xiangru Tang
所属:Shanghai Jiao Tong University, Yale University
論文の内容を簡単に
抄録(Abstract)
大規模言語モデル(LLM)は、推論のための「考えの連鎖」CoT (Chain-of-Thought)プロンプトを用いることで顕著な推論能力を発揮しています。CoTプロンプトは、解答を導き出すための根拠として中間の推論チェーンを生成します。しかし、現在のCoT方法は「一歩ずつ考えよう(Zero-Shot CoT)」といった一般的なプロンプトを単純に使用するか、特定のタスクに特化した手作りのデモンストレーションに大きく依存して、望ましいパフォーマンスを達成しています。これにより、パフォーマンスと一般化の間に避けられないギャップが生じています。このギャップを埋めるために、私たちはMeta-CoT、混在タスクシナリオでの一般化可能なCoTプロンプト方法を提案します。ここでのシナリオとは、入力された質問のタイプが未知である状況のことです。Meta-CoTはまず入力された質問に基づいてシナリオを分類し、続いて対応するデータプールから多様なデモンストレーションを自動的に構築します。Meta-CoTは10の公開ベンチマーク推論タスクで顕著なパフォーマンスを発揮すると同時に、優れた一般化能力を持っています。特筆すべきは、Meta-CoTが追加のプログラム支援手法を使用せずにSVAMP(93.7%)で最先端の結果を達成したことです。さらに、配布外の5つのデータセットでの実験により、Meta-CoTの安定性と汎用性が検証されています。 イントロダクション(Introduction)
しかし、実際のアプリケーションでは、LLMはさまざまなタイプの質問に直面し、その質問がどのタスクに属するかを明確に特定することができません。このような状況では、一般的なトリガープロンプトの素朴な使用は、テンプレート化された根拠の欠如により、しばしば誤った推論ステップを引き起こし、パフォーマンスの低下につながります。したがって、実際的な混在タスクシナリオにおいて、パフォーマンスと一般化の間には避けられないギャップが存在します。このギャップを緩和するためには、一般性とパフォーマンスの間のトレードオフ領域を探求し、実用性を確保することが有望な戦略です。
この考え方に基づき、私たちはMeta-CoTを提案します。これは、入力される質問のタイプが未知である混在タスクシナリオにおける一般化可能なCoTプロンプト方法です。Meta-CoTは三つのフェーズから構成されています。まず、さまざまな推論タイプの質問を複数の推論タスクから収集し、文脈内学習: ICL(コンテキスト内学習: In Context Learning)デモンストレーションとして異なる質問をサンプリングします。これらのICLデモンストレーションは、入力された質問のシナリオを分類するために使用されます。次に、第一段階で得られた分類されたシナリオに基づいて、対応するデータプールから多様なデモンストレーションを自動的に構築します。最後に、第二段階で詳述されたデモンストレーションを用いて入力された質問に最終的な推論を行い、データプールへのフィードバックを提供します。 https://scrapbox.io/files/6588e8fb7ca1a50023acb120.png
我々は算数推論、常識推論、記号推論を含む10のインディストリビューション推論タスクで実験を行いました。さらに、5つのアウトオブディストリビューションデータセットでMeta-CoTの安定性と一般化を検証しました。実験結果は、Meta-CoTが顕著なパフォーマンスと優れた一般性を同時に享受していることを示しています。特に、Meta-CoTは追加のプログラム支援手法を使用せずにSVAMP(93.7%)で最先端の結果を達成しました。さらに、Meta-CoTはGSM8K自体からの文脈内デモンストレーションなしでGSM8K(93.6%)で印象的なパフォーマンスを達成しました。 まとめると、我々の研究は以下の三つの主要な貢献を有しています:
(i) 我々の知る限り、CoTプロンプトのための混在タスクシナリオという新しい設定を提唱したのは我々が初めてであり、これには重要な実用的価値があります。
(ii) 混在タスクシナリオにおいて一般化可能なCoTプロンプト方法を提案し、パフォーマンスと一般化の間のギャップを埋めるだけでなく、一般性を達成しつつパフォーマンスの向上を同時に獲得する相互シナジーを掘り起こします。
(iii) 我々のアプローチは、合計15のインディストリビューションおよびアウトオブディストリビューションデータセットで印象的なパフォーマンスと優れた一般化能力を示しました。特に、追加のプログラム支援手法を使用せずにSVAMP(93.7%)で最先端の結果を達成しました。
https://scrapbox.io/files/6588f1ebe9d49f002396a1fe.png
関連研究(Related Work)
我々の研究には、CoTプロンプトとクロスタスクの一般化の2つの主要な研究ラインがあります。
最近、CoTプロンプト方法は、最終的な答えを導く前に中間の推論チェーンを生成させることで、LLMの多段階推論能力を顕著な水準にまで押し上げています。現在、CoTプロンプトには、「Zero-ShotCoT」と「Few-ShotCoT」という2つの研究の流れがあります。前者は、単に一般的なプロンプト(例えば「Zero-Shot CoT)を入力質問に追加することで、LLMの段階的な能力を引き出します。後者は、タスク固有の入出力ペアを推論のデモンストレーションとして使用し、テスト質問の前に挿入します。 LLMはゼロショット推論者としての能力を証明しており、CoT技術の一般化能力を大幅に拡大しました。タスク固有の例を事前に準備する必要がないため、メリットがありますが、フューショットのライバルと比較するとパフォーマンスにおいてしばしば劣ることがあります。そのため、最近の研究ではプロンプトの最適化に重点を置いています。
うまく作成された文脈内の例を利用することで、フューショットCoTは好ましいパフォーマンスを達成し、これに関する多くの研究が行われています。これらの研究は、改善の時期に応じて3つのカテゴリーに分けられます:(i) 前推論パターン、(ii) 推論中パターン、(iii) 後推論パターン。前推論パターンでは、デモンストレーションの選択時の手間を軽減するか、デモンストレーションの質を向上させることに注目しています。後推論パターンでは、検証やアンサンブルのような方法によりパフォーマンスを向上させることに集中しています。しかし、これらの作業は主にタスク関連の例に依存しており、一般化を追求するためにタスク特有の枠組みから脱却することはできません。そのため、一般的ゼロショットCoT方法が達成できるパフォーマンスには上限があり、現在のCoTプロンプトはジレンマに陥っています。我々の作業は、このジレンマから脱却する方法を見つけ、実際的な混在タスクシナリオに適用可能なMeta-CoTを提案します。
タスク横断的な一般化
タスク横断的な一般化は、自然言語処理: NLPにおいて長年の研究目標でありました。従来の事前学習と微調整のパラダイムは、大規模なテキストコーパスでの事前学習によって一般的な知識を捉え、特定のタスクでの微調整によって特定の知識を獲得することで足場を固めてきました。この初歩的なパラダイムを超えて、事後事前学習やマルチタスク学習は、この研究分野でさらなる進歩を促しています。私たちの研究は、異なるタスクのデータには類似点が存在する可能性があるという発見に触発され、混在する問いを適切に分類することで、一般化とパフォーマンスの間の相互シナジーを検出する可能性があると考えました。いかなる訓練も行わずに、タイムリーかつユーザーフレンドリーなコンテキスト内学習を通じて、タスク一般化を実現しようとしています。 CoTの一般化における課題(Challenges of Generalizable CoT)
既存の研究では、モデルに供給される質問のタイプが分かっていると仮定し、同じデータセットからの質問に基づいて各評価を行うことが一般的です。しかし、より現実的な設定は、入力される質問のタイプが不明で、任意の方法で来る混合タスクシナリオにあります。混合タスクシナリオに対処するために、私たちは目立つ手順、すなわちシナリオ識別を前進させ、プラグアンドプレイ方式で実用的かつ効率的な解決策を探求します。その前に、次の二つの課題に取り組む必要があります:
(i)混合された質問をどのように効果的に分割して、事前定義された解決策(例えばシナリオごとのICL)を起動するか?
(ii)効率的なシナリオ識別のためにLLMが知るべき情報は何か?
混合された質問の分割
これらの質問は算術、常識、象徴的推論を含む3つのカテゴリーをカバーし、短回答、多肢選択、イエス・ノー質問という3つの形式を含みます。最初に、LLMがさまざまなタスクをどの程度うまく識別できるかをテストするために、単純で素朴な試みを行います。10のタスクからそれぞれ1つの質問を無作為に抽出します。各質問について、それが由来するタスク名を保持し、質問タイプの識別のためのコンテキスト内学習デモンストレーションとして使用する10の質問-タスクペアを得ます。
Figure.2からわかるように、識別精度は42%に過ぎません。そこで、間違った例を分析し、それらの92%と64%がそれぞれ正しいタスクの同じカテゴリーと形式に属していることを見つけます。この結果は、LLMがタスク名を区別するのには適していないが、カテゴリーや形式を正確に識別する可能性が高いことを示しています。私たちは、その根底にある理由は二つあると推測していました:
・タスク名自体がLLMにとってコンテキスト内学習だけではその違いをうまく知覚するには抽象的すぎる。
・タスク自体の間には潜在的な類似性や相関関係が存在する。
https://scrapbox.io/files/6588ef7d59d59f0024b8e010.png
タスク名の識別を誤る大半のケースが同じカテゴリーまたは形式に属しているため、次の3つの分割スキームの識別精度を比較しました:
(i)カテゴリーベースのスキームは、混合質問をさまざまなカテゴリーに分ける。
(ii)フォームベースのスキームは、データを異なる回答形式に分割sる。
(iii)<カテゴリー、フォーム>ベースのスキームは、これら2つの側面を同時に考慮する。
Figure2の右側の部分からわかるように、カテゴリーおよびフォームベースのスキームでは、特定のグループが誤ったケースを支配する傾向があります。例えば、カテゴリー識別の誤りの85%が象徴的グループに属しています。これは、サンプルされた象徴的グループのデモンストレーションが象徴的なイエス・ノー質問をカバーしていないため、LLMがこの欠けているタイプを正確に識別することを妨げているということが判明しました。したがって、質問のカテゴリーと形式の両方に基づいて混合された質問を分割することは合理的な戦略であり、質問データの2つの主要な性質を適切に考慮しています。Figure3の結果から、この戦略は高い精度(99%)を達成しています。
https://scrapbox.io/files/6588f15a66f4ca00246c5dc6.png
シナリオの識別
上で議論された<Category, Form>ベースの分割戦略に従い、シナリオ識別のためにLLMに供給される4つの入力フォーマットを検討します:
(i)(Q)は純粋に質問を入力として取ります;
(ii)(Q, A) は質問と対応する予測回答を連結します;
(iii)(Q, CoT) は質問と根拠を結合します;
(iv)(Q, CoT, A) は質問、根拠、回答を順に組み合わせます。
Table2の結果は、質問自体がLLMにシナリオを知覚させるために十分であることを示唆しています。特に、CoTの参加は識別パフォーマンスを低下させることがあり、これはLLMが質問自体にのみ焦点を当てる必要があり、根拠はLLMをそらして識別エラーにつながる可能性があることを示しています。したがって、質問のみのパターンQは、適切な精度と一般性を持つシナリオ識別のための満足のいく入力オプションです。 https://scrapbox.io/files/6588f33b79907000238908d4.png
Meta-CoT(Meta-CoT)
Meta-CoTは、入力された質問のシナリオを特定し、対応するシナリオのデータグループからICLデモンストレーションを選択し、最終的に質問に対する推論を行うことで答えを導き出します。この過程では、質問ごとに適切なデモンストレーションを選び、それを用いてLLMsに推論させることが重要です。
実験(Experiments)
Meta-CoTの性能を評価するために、10のインディストリビューション推論データセットと5つのアウトオブディストリビューションデータセットで実験を行いました。Meta-CoTは、SVAMPでのステートオブジアートの結果を含む、いくつかのデータセットで顕著なパフォーマンスを達成しました。さらに、分布外データセットにおいても優れた一般性と安定性を示しました。
セットアップ
Tasks and Datasets
実装
私たちは、一般に公開されている人気のあるGPT-3.5-TurboとGPT-4をOpenAI APIから利用しています。実験結果は、特に明示されていない限り、デフォルトでGPT-3.5-Turboに基づいています。元の混合質問プールMPは、10のインディストリビューション・データセットに基づいて構築されています。データグループの数は、上で議論された分割スキームに従って6です。Weiら(2023年)に従うと、デモンストレーションの数kは8ですが、<算術、多肢選択問題>と<象徴的、短回答問題>(4)、<常識、多肢選択問題>(7)、<常識、イエス・ノー問題>(6)を除きます。 ベースライン
私たちはMeta-CoTを6つのベースラインと比較します。これらは3つのグループに分けることができます:
(iii)一般化を参照するCoT技術、Zero-Shot-CoT(Kojimaら、2023年)とGeneral-CoT。General-CoTは、一般化比較のために特別に考案した強力なベースラインです。これは、私たちの混合データプール(MP)の分割された質問グループごとに1つのデモンストレーションをランダムに収集し、収集されたデモンストレーションをすべての入力データの一般的な推論プロンプトとして利用します。 主要な結果
メタCoTの10のインディストリビューションデータセットにおけるパフォーマンス
表3は、10のインディストリビューション推論タスクの結果を提示しています。特に、メタCoTは、追加のプログラム支援メソッドなしでSVAMP(93.7%)において最先端の結果を達成しています。メタCoTはまた、GSM8K自体からのコンテキスト内デモンストレーションなしでGSM8Kにおいても印象的なパフォーマンスを達成しています。さらに、メタCoTはさまざまな角度からすべてのベースライン方法を上回ります。一方で、2つの典型的なタスク固有CoTアプローチと比較して、メタCoTはパフォーマンスでそれらを上回るだけでなく、一般化可能な特性も享受しています。これは、未知のタイプの入力質問が自動的かつ労働フリーなパターンで私たちの方法に適応できることを意味します。他方、一般的なCoT技術はパフォーマンスの劣化を目撃しています(例:82.1%→79.4/80.7%)が、メタCoTはパフォーマンスを継続的に向上させることにより(例:82.1%→82.5%)、LLMのパフォーマンスと一般化の相互シナジーに光を当てています。
https://scrapbox.io/files/658935c71c14720024820296.png
5つのアウトオブディストリビューションデータセットでのメタCoTのパフォーマンス
私たちの研究は、混合タスクシナリオで一般化可能なCoTプロンプティング方法を達成することを目指しているため、さらに5つのアウトオブディストリビューションデータセットで実験を行い、その一般性を検証します。表4から、私たちのアプローチが適切なパフォーマンスを達成し、安定性を維持していることがわかります。これらの結果は、特定のタイプによって定義されていない受信データがある現実的な状況でメタCoTを適用する可能性を証明しています。さらに、驚くべきことに、<常識、イエス・ノー質問>のシナリオのデモンストレーションで同様の結果が得られることがわかりました。これは、LLMの一般性を支援する常識知識の広範なカバレッジによるものと分析されます。
https://scrapbox.io/files/658935de1c14720024820416.png
分析
CoTデモンストレーションの構築方法
私たちの研究は実際の混合タスクシナリオに位置づけられており、労働節約のパターンで高品質なデモンストレーションにアクセスすることが非常に重要です。それに応じて、労働フリーでサンプリングする2つの代表的な方法を比較のために選択します:(i) 類似性ベースの方法は、コサイン類似性に基づいて最も似た上位kの質問を取得します;(ii) ランダムネスベースの方法は、各入力質問に対してランダムにkのデモンストレーションをサンプリングします。表5の結果から、私たちが提案するメタCoTが最も優れたパフォーマンスを示し、デモンストレーションにおける多様性の重要性を示しています。
https://scrapbox.io/files/6589365c85bab70024eeedd7.png
シナリオ識別の効果
一般化において重要な役割を果たすシナリオ識別の効果をさらに探求するために、この識別フェーズを廃止し、モデルにゴールドシナリオが与えられると仮定する理想化された戦略を採用します。表6の結果から、正しいシナリオが与えられても、わずかな改善しか検出されないことが明らかになります(70.2% → 70.6%)。これは、私たちの方法が手動介入なしでLLMの自己決定能力を刺激する可能性があることを示しています。
https://scrapbox.io/files/65893669328df80024f0a822.png
結論(Conclusion)
この研究では、入力質問のタイプが未知である混合タスクシナリオという、重要な応用価値を持つ新しい設定を提案しました。この挑戦的な設定の下で、私たちはMeta-CoTという一般化可能なCoTプロンプティングメカニズムを提案しました。これは、入力データに基づいてシナリオの識別を最初に行い、その後ICLのために対応するデモンストレーションを自動的に構築します。合計15のインディストリビューションおよびアウトオブディストリビューションデータセットにおける評価結果は、提案したアプローチの印象的なパフォーマンスと優れた一般化能力を示しています。既存の多くの研究がパフォーマンスの向上または一般性の追求に焦点を当てている中で、私たちはシンプルかつ実用的な方法でこれら2つの側面を結びつける画期的な視点を提供します。