LLMの自己修正を批判的に検討した論文

https://scrapbox.io/files/669916ac2b5bb0001dc916b2.png

論文情報

タイトル：Large Language Models Cannot Self-Correct Reasoning Yet

発行日：2024年3月

著者：Jie Huang et al

所属：Google DeepMind

URL：https://arxiv.org/pdf/2310.01798

#AI-論文

論文のポイント

LLMが自己修正すること(通称: パワハラプロンプト)は、本当に有効なのかを批判的に検証した論文

既存の手法と、その問題点はこれら

https://scrapbox.io/files/669c4e002516d1001c6b1b32.png

実験

ベンチマーク: 数学推論、常識推論、Q/A

GSM8K、CommonsenseQA、HotpotQA

モデル

GPT-3.5-Turbo、GPT-4-Turbo、Llama-2-70b-chat

プロンプト

自己修正のために3段階のプロンプト戦略を適用(詳細は、§3-2)

1) モデルに初期生成を行わせるプロンプト

2) モデルに前の生成をレビューしフィードバックを生成させるプロンプト

3) モデルにフィードバックを用いて元の質問に再び答えさせるプロンプト。

結果

正解ラベル(オラクルラベル)を使わない自己修正(内在的自己修正)をさせたところ、パフォーマンスが劣化した

https://scrapbox.io/files/669f644ed3d2f0001d307b80.png

https://scrapbox.io/files/669f665fcba0f3001ce8a6b1.png

https://scrapbox.io/files/669f669b713217001de69139.png

概要

大規模言語モデル(LLM)は、様々なアプリケーションにおける比類のないテキスト生成能力により、画期的な技術として台頭しています。それにもかかわらず、生成されたコンテンツの正確性と適切性に関する懸念は依然として残っています。

最近の方法論である自己修正は、これらの問題の解決策として提案されています。この前提に基づき、本論文ではLLMにおける自己修正の役割と有効性を批判的に検証し、その真の可能性と限界を明らかにします。

我々の調査の中心にあるのは、内在的自己修正の概念です。これは、LLMが外部フィードバックの助けを借りずに、固有の能力のみに基づいて初期の応答を修正しようとするものです。

推論の文脈において、我々の研究は、LLMが外部フィードバックなしに自己の応答を修正することに苦労していること、そして時には自己修正後にパフォーマンスが低下することさえあることを示しています。これらの洞察に基づいて、我々はこの分野での今後の研究と実践的な応用への提案を提供します。

1 はじめに

人工知能の分野における急速な進歩により、大規模言語モデル(LLM)の時代が到来しました。これらのモデルは、膨大なパラメータ数と比類のないテキスト生成能力を特徴とし、多数のアプリケーションにわたって有望な結果を示しています。しかし、その精度、推論能力、および生成されたコンテンツの安全性に関する懸念が、コミュニティから大きな注目を集めています。

この背景の中で、「自己修正」の概念が有望な解決策として浮上しました。これは、LLMが以前の出力に対するフィードバックに基づいて応答を改善するというものです。

しかし、LLMにおける自己修正の基本的なメカニズムと有効性は十分に探求されていません。根本的な疑問が生じます：

LLMに自己修正能力があるならば、なぜ最初の試みで正しい答えを提供しないのでしょうか？

本論文はこのパラドックスを深く掘り下げ、LLMの自己修正能力を批判的に検証し、特に推論に重点を置いています。

これを研究するために、我々はまず内在的自己修正の概念を定義します。これは、モデルが外部フィードバックの助けを借りずに、固有の能力のみに基づいて初期の応答を修正しようとするシナリオです。このような設定は、多くの実世界のアプリケーションで高品質な外部フィードバックが利用できないことが多いため、非常に重要です。さらに、LLMの内在的能力を理解することが不可欠です。

自己修正に関する楽観論(Self-Refine論文, Reflexion論文, Recursively Criticizes and Improves 論文, Constitutional AI論文, Self-Correction論文, etc)とは対照的に、我々の発見は、LLMがこの設定において推論を自己修正することに苦労していることを示しています。ほとんどの場合、自己修正後のパフォーマンスは悪化さえします。この観察は、Recursively Criticizes and Improves 論文や、Reflexion論文などの先行研究とは対照的です。詳細な検討の結果、これらの研究での改善は、オラクルラベルを使用して自己修正プロセスを導くことによるものであり、オラクルラベルが利用できない場合には改善が消滅することがわかりました。

hiroya_iizuka.icon どういうこと？

オラクルラベルへの依存以外にも、自己修正によって達成された改善を測定することに関して、文献にはいくつかの問題があることを我々は特定しました。まず、自己修正は設計上、複数のLLM応答を利用するため、同等の推論コストを持つベースラインと比較することが重要であることに注目しました。この観点から、我々は推論を改善する手段としてマルチエージェント討論(Du et al., 2023; Liang et al., 2023)を調査しました。これは、複数のLLMインスタンス(同じLLMの複数のコピーでも可)が互いの応答を批評するものです。しかし、我々の結果は、同等の数の応答を考慮した場合、その有効性がSelf-Consistencyよりも優れていないことを明らかにし、そのようなアプローチの限界を浮き彫りにしています。

自己修正に関するもう一つの重要な考慮事項は、プロンプト設計に関するものです。具体的には、各自己修正プロセスには、初期応答生成と自己修正ステップの両方のプロンプトを設計することが含まれます。我々の評価は、一部の既存の研究で主張されている自己修正の改善が、初期応答生成のためのサブオプティマルなプロンプトに起因していることを明らかにしています。

hiroya_iizuka.icon これもわかりずらい、後でしっかり書いてあるか？

そこでは、自己修正が、フィードバックプロンプトで初期タスクについてより多くの情報を含む指示で、これらの応答を修正しています。このような場合、単にフィードバックを初期指示に統合するだけでより良い結果が得られ、自己修正は再びパフォーマンスを低下させます。

我々の発見に照らして、LLMの自己修正能力の微妙な点について洞察を提供し、真に推論を修正できる方法を探求することに焦点を当てた将来の研究を奨励するための議論を開始します。

2 背景と関連研究

LLMの進化とともに、自己修正の概念が注目を集めました。自己修正に関する議論は、これらの高度なモデルが自身の出力の正確さを認識し、改良された答えを提供できるかどうかを中心に展開されています。

例えば、数学的推論の文脈では、LLMが最初に複雑な問題を解決しても、計算ステップの1つで誤りを犯す可能性があります。理想的な自己修正シナリオでは、モデルが潜在的な間違いを認識し、問題を再検討し、誤りを修正し、その結果としてより正確な解決策を生成することが期待されます。

しかし、「自己修正」の定義は文献によって異なり、曖昧さを生んでいます。重要な区別は、フィードバックの源(Pan et al., 2023)にあり、これは純粋にLLMから来るものもあれば、外部の入力から引き出されるものもあります。

hiroya_iizuka.icon 確かに、外部からフィードバックするか、内部でLLMが自分でするか、2つある

内部フィードバックは、モデルの固有の知識とパラメータに依存して、その出力を再評価します。対照的に、外部フィードバックは、人間、他のモデル、または外部ツールや知識源からの入力を組み込みます。

本研究では、推論におけるLLMの自己修正能力の検証に焦点を当てています。推論は人間の認知の基本的な側面であり、私たちが世界を理解し、推論を行い、決定を下し、問題を解決することを可能にします。LLMの推論パフォーマンスを向上させるために、Recursively Criticizes and Improves 論文; Reflexion論文は、答えの正確さに関するオラクルラベルを使用して自己修正プロセスを導いています。しかし、実際には、答えの正確さなどの高品質な外部フィードバックはしばしば利用できません。

hiroya_iizuka.icon NotebookLMで確認した。

https://scrapbox.io/files/669c51704cef25001d9988b8.png

hiroya_iizuka.icon 自分も、Recursively Criticizes and Improves 論文は、オラクルラベルを使ってないと思う

https://scrapbox.io/files/669c51cc84fa2a001d9e4695.png

効果的な自己修正のためには、答えの正確さを判断する能力が重要であり、理想的にはLLM自身によって行われるべきです。したがって、我々の焦点は、外部または人間のフィードバックなしの自己修正に移ります。我々はこの設定を内在的自己修正と呼びます。簡潔にするために、明示的に述べられていない限り(例えば、オラクルフィードバックを伴う自己修正)、本論文の残りの部分での「自己修正」への言及はすべて内在的自己修正に関するものです。

以下のセクションでは、既存の様々な自己修正技術を評価します。我々は、オラクルラベルを使用しない場合、

既存の技術が実際に推論パフォーマンスを低下させること(セクション3)

同じ数のモデル応答を利用する場合、自己修正を使用しない方法よりも性能が劣ること(セクション4)

初期応答生成のための情報豊富なプロンプトを使用する場合、より効果的でない結果につながること(セクション5)

を実証します。

表1に、以前のLLM自己修正研究の評価設定における問題の概要を示し、対応するセクションで詳細な議論を行います。

https://scrapbox.io/files/669c4e002516d1001c6b1b32.png

3 LLMは内在的に推論を自己修正できない

このセクションでは、既存の自己修正方法を評価し、答えの正確さに関するオラクルラベルの有無によるパフォーマンスを比較します。

3.1 実験設定

ベンチマーク

我々は、オラクルラベルを使用する既存の自己修正方法が大幅なパフォーマンス向上を示したデータセットを使用します。これには以下が含まれます：

GSM8K

GSM8Kは、人間の問題作成者によって作成された、言語的に多様な1,319の小学校レベルの数学の文章問題からなるテストセットで構成されています。Kim et al. (2023)によると、自己修正後に約7%の顕著な改善が見られます。

CommonSenseQA

このデータセットは、常識的推論をテストする複数選択式の質問のコレクションを提供します。Kim et al. (2023)が実証したように、自己修正プロセスを通じて約15%の印象的な増加が示されています。Kojima et al. (2022); Kim et al. (2023)に従い、我々は評価に1,221の質問を含む開発セットを使用します。

HotpotQA

HotpotQAは、オープンドメインのマルチホップ質問応答データセットです。Shinn et al. (2023)は、自己修正を通じて大幅なパフォーマンス向上を示しています。我々は、クローズドブック設定でモデルのパフォーマンスをテストし、Shinn et al. (2023)と同じセットを使用して評価します。このセットには100の質問が含まれており、完全一致が評価指標として使用されます。

テストモデルとセットアップ

まず、Recursively Criticizes and Improves 論文とSelf-Refine論文に従って、オラクルラベルを使用した自己修正のパフォーマンスを評価するために、2023年8月29日にアクセスしたGPT-3.5-Turbo (gpt-3.5-turbo-0613)とGPT-4を使用します。

内在的自己修正については、より徹底的な分析を提供するために、GPT-4-Turbo (gpt-4-1106-preview)とLlama-2 (Llama-2-70b-chat) (Touvron et al., 2023)も評価します。

GPT-3.5-Turboについては、完全な評価セットを使用します。他のモデルについては、コストを削減するために、各データセットからランダムに200の質問(HotpotQAについては100)をサンプリングしてテストします。モデルに最大2回の自己修正を行わせます。

GPT-3.5-TurboとGPT-4には温度1を、GPT-4-TurboとLlama-2には温度0を使用し、異なるデコーディングアルゴリズムでの評価を提供します。

プロンプト

Recursively Criticizes and Improves 論文とSelf-Refine論文に従い、自己修正のために3段階のプロンプト戦略を適用します：

1) モデルに初期生成を行わせるプロンプト(これは標準プロンプトの結果としても機能します)

2) モデルに前の生成をレビューしフィードバックを生成させるプロンプト

3) モデルにフィードバックを用いて元の質問に再び答えさせるプロンプト。

我々の実験では、主に元の論文からのプロンプトを厳守します。

GSM8KとCommonSenseQAについては、より正確な自動評価を容易にするために、Recursively Criticizes and Improves 論文のプロンプトにフォーマット指示を統合します(詳細なプロンプトは付録Aに記載されています)。

https://scrapbox.io/files/669f61bd89937f001cc92b86.png

HotpotQAについては、Self-Refine論文と同じプロンプトを使用します。

また、内在的自己修正のための様々な自己修正プロンプトのパフォーマンスも評価します。例えば、GPT-4-TurboとLlama-2の評価では、「この答えが正しいか間違っている可能性があると仮定してください。答えを注意深くレビューし、見つかった重大な問題を報告してください。」をデフォルトのフィードバックプロンプトとして使用します。

3.2 結果

オラクルラベルを使用した自己修正

先行研究(Kim et al., 2023; Shinn et al., 2023)に従い、自己修正ループを停止するタイミングを決定するために正解ラベルを使用します。

これは、各ステップで生成された答えが正しいかどうかを検証するために、正解ラベルを利用することを意味します。答えがすでに正しい場合、(さらなる)自己修正は行われません。

表2は、この設定下での自己修正の結果をまとめたものであり、Kim et al. (2023); Shinn et al. (2023)で示された知見と一致して、大幅なパフォーマンス向上を示しています。

https://scrapbox.io/files/669f63c5b3f943001d2d429f.png

しかし、これらの結果は慎重に考慮する必要があります。数学の問題を解くなどの推論タスクでは、オラクルラベルの可用性は直感に反するように思われます。すでに正解を持っているのであれば、問題解決のためにLLMを展開する理由はほとんどないように思われます。したがって、結果はオラクルのパフォーマンスを示唆するものとしてのみ見なすことができます。

内在的自己修正

上記の議論に基づき、オラクルラベルを使用して達成されたパフォーマンスの向上は、必ずしも真の自己修正能力を反映しているわけではありません。したがって、我々はセクション2で定義した内在的自己修正設定での結果に焦点を当てます。

これを達成するために、ラベルの使用を排除し、LLMが自己修正プロセスを停止するタイミング、つまり以前の答えを保持するかどうかを独立して決定することを要求します。

表3と4は、精度とモデル呼び出し回数を報告しています。自己修正後、すべてのモデルの精度がすべてのベンチマークで低下することを観察しました。

https://scrapbox.io/files/669f644ed3d2f0001d307b80.png

https://scrapbox.io/files/669f665fcba0f3001ce8a6b1.png

より包括的な評価を提供するために、推論パフォーマンスを向上させる可能性のあるより良いプロンプトがあるかどうかを判断するために、いくつかの異なる自己修正プロンプトも設計しました。それにもかかわらず、表5と6に示すように、オラクルラベルを使用しない場合、自己修正は一貫してパフォーマンスの低下をもたらします。

https://scrapbox.io/files/669f669b713217001de69139.png

3.3 なぜパフォーマンスは向上せず、むしろ低下するのか？

経験的分析。図1は、2回の自己修正後の答えの変化の結果をまとめたものであり、図2はGPT-3.5の2つの例を示しています。GSM8Kでは、GPT-3.5は74.7%の時間で初期の答えを保持します。残りのケースでは、モデルが正しい答えを間違った答えに変更する可能性の方が、間違った答えを正しい答えに修正する可能性よりも高くなっています。根本的な問題は、LLMが自身の推論の正確さを適切に判断できないことです。

CommonSenseQAでは、GPT-3.5が答えを変更する可能性が高くなります。これの主な理由は、CommonSenseQAの誤った回答選択肢が質問に関連しているように見えることが多く、自己修正プロンプトを使用することでモデルが別の選択肢を選ぶよう偏向する可能性があり、「正解 ⇒ 不正解」の比率が高くなることです。同様に、Llama-2も頻繁に正解を不正解に変換します。GPT-3.5とLlama-2に比べて、GPT-4とGPT-4-Turboはどちらも初期の答えを保持する可能性が高くなります。これは、GPT-4とGPT-4-Turboが初期の答えに対してより高い信頼性を持っているか、あるいはより堅牢で自己修正プロンプトによって偏向されにくいためかもしれません。

表2の結果をもう一度見てみましょう。これらの結果は、正解の答えを間違った答えに変更することを防ぐために正解ラベルを使用しています。しかし、実際には、そのような誤った変更をどのように防ぐかを決定することが、自己修正の成功を確実にするための鍵なのです。

直感的説明。モデルがうまく調整され、よく設計された初期プロンプトと組み合わされている場合、初期の応答はすでにプロンプトと特定のデコーディングアルゴリズムに関して最適であるはずです。フィードバックを導入することは、追加のプロンプトを加えることと見なすことができ、潜在的にモデルを、この組み合わされた入力に合わせて調整された応答を生成する方向に偏向させる可能性があります。内在的自己修正の設定では、推論タスクにおいて、この補足的なプロンプトは質問に答えるための追加の利点を提供しない可能性があります。実際、初期プロンプトに対する最適な応答を生成することからモデルを遠ざける可能性さえあり、結果としてパフォーマンスの低下を招く可能性があります。

4 マルチエージェント討論は自己一貫性を上回らない

LLMが推論を自己修正するもう一つの潜在的なアプローチは、複数のモデル呼び出しを通じてモデルに批評や議論を行わせることです(Du et al., 2023; Liang et al., 2023; Chen et al., 2023a)。Du et al. (2023)は、単一のChatGPTモデルの複数のインスタンスを活用することで、マルチエージェント討論法を実装し、推論タスクで大幅な改善を示しています。我々は彼らの方法を採用し、GSM8Kでのパフォーマンスをテストします。偏りのない実装のために、Du et al. (2023)と全く同じプロンプトを使用し、gpt-3.5-turbo-0301モデルを使用して3つのエージェントと2ラウンドの討論を含む彼らの実験を再現します。唯一の違いは、結果の変動を減らすために、彼らが100の例を使用したのに対し、我々はGSM8Kの完全なテストセットでテストすることです。参考のために、自己一貫性(Wang et al., 2022)の結果も報告します。これは、モデルに複数の応答を生成させ、多数決投票を行って最終的な答えを選択するものです。

表7に結果を示します。結果は、マルチエージェント討論と自己一貫性の両方が標準的なプロンプトに比べて大幅な改善を達成していることを示しています。しかし、マルチエージェント討論を自己一貫性と比較すると、マルチエージェントのパフォーマンスは、同じ数のエージェント(3つの応答、Du et al. (2023)でも比較されているベースライン)を使用した自己一貫性よりもわずかに優れているだけであることがわかります。さらに、同等の数の応答を使用した自己一貫性では、マルチエージェント討論は単純な多数決投票を使用した自己一貫性を大幅に下回っています。

実際、マルチエージェント討論を「討論」や「批評」の形態としてラベル付けするよりも、それを複数のモデル生成にわたる「一貫性」を達成する手段として認識する方が適切です。根本的に、その概念は自己一貫性のそれを反映しています。違いは投票メカニズム、つまり投票がモデル駆動なのか、純粋に数に基づいているのかにあります。観察された改善は明らかに「自己修正」ではなく、むしろ「自己一貫性」に起因しています。マルチエージェント討論を通じてLLMが推論を自己修正できると主張したい場合、複数の生成の中からの選択の効果を除外する方が好ましいです。

5 自己修正評価におけるプロンプト設計の問題

セクション3では、我々が評価したすべての種類のフィードバックプロンプトで自己修正が推論パフォーマンスを低下させることを観察しましたが、異なるフィードバックプロンプトでパフォーマンスが変化することを示しました。このセクションでは、自己修正によって達成されたパフォーマンスの向上を公平に測定するために、初期LLM応答を生成する際の適切なプロンプト設計の重要性をさらに強調します。例えば、タスクがモデルの応答が容易に指定できる基準を満たすことを要求する場合(例：出力に特定の単語が含まれていること、生成されたコードが効率的であること、感情がポジティブであることなど)、そのような要件をフィードバックプロンプトにのみ含めるのではなく、初期応答を生成するためのプロンプトに直接かつ明示的にこれらの要件を組み込むことが適切な比較となります。そうでない場合、初期予測を生成するための指示が十分に情報量が多くない場合、パフォーマンスが向上したとしても、その向上がフィードバックプロンプトでのより詳細な指示から来ているのか、自己修正ステップ自体から来ているのかが不明確です。

このようなプロンプト設計の問題を説明するために、Madaan et al. (2023)の制約付き生成タスクを例として取り上げます。このタスクでは、モデルが20〜30の入力概念をすべて使用して一貫性のある文を生成することが要求されています。Madaan et al. (2023)の元のプロンプト(図7)では、LLMがプロンプト内のすべての概念を含める必要があることが明確に指定されていません。そのため、彼らは自己修正がタスクのパフォーマンスを向上させることを示しています。これは、モデルに欠けている概念を特定させ、フィードバックを通じてこれらの概念を組み込むよう導くことによって行われています。

この観察に基づいて、我々は「上記の概念をすべて含む合理的な段落を書いてください」という指示を初期応答生成のプロンプトに追加しました(完全なプロンプトについては図8を参照してください)。Madaan et al. (2023)に従い、概念カバレッジを評価指標として使用します。我々は彼らの結果を参照し、gpt-3.5-turbo-0613を使用して彼らの実験を再現します。表8は、我々の新しいプロンプト(Standard Prompting (ours)と表記)が、Madaan et al. (2023)の自己修正後の結果を大幅に上回ることを示しています。また、我々のより強力な標準プロンプトのバージョンからのモデル応答に彼らの自己修正プロンプトを適用すると、再びパフォーマンスの低下につながることを示しています。

6 結論と議論

我々の研究は、現在のLLMが外部フィードバックなしに推論を自己修正することに苦労していることを示しています。これは、これらのモデルが固有に推論の誤りを認識し修正することを期待するのは、現時点では楽観的すぎることを意味します。これらの発見を踏まえ、コミュニティは自己修正の概念に対して慎重な視点でアプローチし、その可能性を認識しつつ、その境界を認識することが不可欠です。そうすることで、我々はLLMの限界に対処し、強化された能力を持つ次世代のLLMを開発するために、自己修正技術をより適切に装備することができます。以下では、自己修正が潜在的な強みを示すシナリオについての洞察を提供し、公平な比較を確保するための将来の自己修正技術の実験設計に関するガイドラインを提供します。

修正のための外部フィードバックの活用。本研究では、現在のLLMが内在的自己修正を通じて推論パフォーマンスを向上させることができないことを示しています。したがって、有効な外部フィードバックが利用可能な場合、それを適切に活用してモデルのパフォーマンスを向上させることが有益です。例えば、Chen et al. (2023b)は、LLMが自己デバッグを通じてコード生成パフォーマンスを大幅に向上させることができることを示しています。これは、予測されたコードの問題を修正するために、フィードバックプロンプトにコード実行結果を含めることによって行われます。特に、問題の説明が意図されたコード実行動作を明確に指定している場合、例えば単体テストがある場合、コード実行者は予測されたプログラムの正確さを判断するための完璧な検証者として機能し、エラーメッセージもLLMが応答を改善するのを導く情報豊富なフィードバックを提供します。Gou et al. (2023)は、LLMが検索エンジンや計算機などの様々な外部ツールと対話する際に、より効果的に応答を検証および修正できることを示しています。Cobbe et al. (2021); Lightman et al. (2023); Wang et al. (2023b)は、高品質なデータセットで検証者または批評モデルを訓練し、LLM出力を検証または改良するために使用できます。これは予測エラーを修正するためのフィードバックを提供するのに使用できます。自動生成された外部フィードバック以外にも、我々はLLMと対話する際にしばしば自身でフィードバックを提供し、望むコンテンツを生成するよう導きます。LLMが外部環境と対話し、利用可能な様々な種類のフィードバックから学習できるようにする技術を設計することは、将来の研究の有望な方向性です。

比較可能な推論コストを持つベースラインに対する自己修正の評価。設計上、自己修正には追加のLLM呼び出しが必要であり、それによって追加のトークンのエンコーディングと生成のコストが増加します。セクション4では、マルチエージェント討論アプローチなど、複数の以前の応答に基づいてLLMに最終応答を生成させるアプローチのパフォーマンスが、同じ数の応答を持つ自己一貫性(Wang et al., 2022)よりも劣ることを示しています。これに関して、我々は新しい自己修正方法を提案する将来の研究が、パフォーマンス向上の主張を裏付けるために、常に詳細な推論コスト分析を含めることを奨励します。さらに、自己一貫性のような複数のモデル応答を活用する強力なベースラインを比較に使用すべきです。

将来の研究への示唆は、おそらくいくつかの調整技術を通じて、答えの分布において最適な解を復号化する確率が高いモデルを開発することです。これにより、複数の生成を必要とせずに、モデルがより良い応答を生成することが可能になります。

プロンプト設計に同等の労力を注ぐ。セクション5で議論したように、自己修正によって達成された改善をより良く理解するためには、タスクの説明の一部をフィードバックプロンプトに残すのではなく、初期応答の生成のためのプロンプトにタスクの完全な説明を含めることが重要です。広く言えば、初期応答生成のプロンプトと自己修正のプロンプトの設計に同等の労力を投じるべきです。そうしないと、結果が誤解を招く可能性があります。

7 限界と広範な影響

我々は様々な自己修正戦略、プロンプト、ベンチマークにわたって包括的な評価を行いましたが、我々の研究はLLMの推論の評価に焦点を当てています。したがって、他の分野でLLMのパフォーマンスを向上させる可能性のある自己修正戦略が存在する可能性があります。例えば、先行研究では、応答のスタイルを変更したり、安全性を向上させたりするなど、特定の好みにモデルの応答を合わせるための自己修正の成功的な使用が実証されています(Bai et al., 2022; Ganguli et al., 2023; Madaan et al., 2023)。重要な違いは、与えられたタスクに関連してLLMが自身の応答を正確に評価する能力にあります。例えば、LLMは応答が不適切かどうかを適切に評価できますが(Ganguli et al., 2023)、推論の誤りを特定するのに苦労する可能性があります。

さらに、いくつかの先行研究はすでに、外部フィードバックへのアクセスなしではLLMの自己修正パフォーマンスが大幅に弱くなること(Gou et al., 2023; Zhou et al., 2023a)、および誤解を招くフィードバックによって簡単に偏向される可能性があること(Wang et al., 2023a)を示しており、これは我々の本研究での発見と一致しています。しかし、我々はなお、より広いコミュニティに蔓延する曖昧さを特定しました。一部の既存の文献は、意図せずにこの混乱に寄与している可能性があります。ラベルの使用に関する重要な詳細をあまり目立たないセクションに委ねたり、設計された自己修正戦略が実際には外部フィードバックを組み込んでいることを明確にしなかったりすることによってです。これに関して、我々の論文は行動への呼びかけとして機能し、研究者にこの分野に洞察力と批判的な視点でアプローチすることを促します。また、真に推論を向上させることができるアプローチを探求する将来の研究を奨励します。