思考の劣化論文
https://scrapbox.io/files/65af0e20fb5cbf0023f391ca.png
論文情報
タイトル:Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
発行日:2023年5月
著者:Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi
所属:
論文を読んで感じたこと
難しいタスクには、自分一人でフィードバックするより、複数のエージェントで討論せよという論文
https://scrapbox.io/files/65af3344caacbb0022dd450a.png
https://scrapbox.io/files/65af33962d59670023bdc15b.png
ChatGPTに一人でフィードバックさせても、時に逆効果になることがある。
理由としては、LLMの自己評価能力に大きく依存しており、これは公式に保証されていない。
そして、LLMが一度解答に自信を持ち始めると、たとえ最初の立場が間違っていても、反省の後に新しい考えを生成することができなくなる。
https://scrapbox.io/files/65af1a79f98d1000246d3bdd.png
フィードバックを豊かにするためには、外部からの意見が大事。
これを解決するための手法が、複数のエージェント同士の討論
具体的な討論の戦略は以下の通り
(1) 一方のLLMの歪んだ思考が、他方によって修正されること
(2) 一方のLLMの変化への抵抗が、他方によって補完されること
(3) 各エージェントが他方から外部フィードバックを得ることができること
実験のタスクのチョイスが、とても考えられていて勉強になる。
コモンセンス機械翻訳と反直感的算数推理という、二つの難しいタスク
これらのタスクの共通の特徴は、質問の表面的な表現のみに基づいては私たちの直感がほとんど間違っていること、そしてより良い解決策にはより深いレベルの熟考が必要であること
実験結果がすごい...!
難しい翻訳タスクにおいて、GPT-3.5 Turboが、GPT-4越えの成績になった。
https://scrapbox.io/files/65af25207eb59f00245c140b.png
難しい数学の問題については、GPT-4こそ超えなかったものの、Self-refineよりいい成績(self-refineは、GPT-3.5のbaseと変わらない)になった
https://scrapbox.io/files/65af271714361d0026c643b2.png
ただ反論すればいいというわけではない
https://scrapbox.io/files/65af2eea2165d200227785c1.png
議論が真実や理解を求めることよりも議論に勝つことに躍起になる可能性がある
Twitterの不毛な論破合戦は、無意味ということ
次にどうする?
マルチエージェントを評価に入れるのは、結構なコストがかかる。この論文のような複雑な実験タスクの時にはやった方が良いが、簡単なタスクにはオーバーかもしれない。
文章生成タスクの評価は、オープンエンドなタスクで、評価がとても難しい。
そのため、このマルチエージェントシステムを取り入れた評価を採用しても良い。
概要
現代の大規模言語モデル(LLM)であるChatGPTなどは、一般的な言語タスクにおいて顕著な性能を示していますが、複雑な推論タスクにおいてはまだ苦戦しており、これがLLMの認知行動に関する研究を促進しています。この研究は、人間のような問題解決戦略を探求するものです。その方向性の中で、自己反省という代表的な戦略があります。これはLLMによって自己生成されたフィードバックを反復的に精査して解決策を練り直すことを求めるものです。しかし、私たちの研究では、このような反省スタイルの方法が「思考の劣化」(Degeneration-of-Thought, DoT)という問題に悩まされていることが示されています。LLMが一度解答に自信を持ち始めると、たとえ最初の立場が間違っていても、反省を通じて後に新しい考えを生成することができなくなります。このDoT問題に対処するため、私たちは複数のエージェントが「しっぺ返し戦略」状態でそれぞれの議論を展開し、意思決定者が最終的な解決策を得るための議論プロセスを管理するマルチエージェントディベート(MAD)フレームワークを提案しています。明らかに、MADフレームワークはLLMに多様な思考を促し、深いレベルの熟考を必要とするタスクに役立ちます。コモンセンスマシン翻訳と逆説的算数推理という2つの難しいデータセットに関する実験結果は、MADフレームワークの有効性を示しています。詳細な分析から、ディベートの適応的な中断と「タイト・フォー・タット」状態の適度なレベルがMADの良いパフォーマンスを得るために必要であることが示唆されます。さらに、異なるLLMがエージェントとして使用される場合、LLMが公正な意思決定者になり得ないかもしれないことがわかりました。 1 緒論
ChatGPT、GPT-4、Bardなどの現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著な性能を示していますが、複雑な推論タスクにおいてはまだ苦戦しており、これがLLMの認知行動に関する研究を促進しています。特に、自己反省(Madaanら、2023年;Shinnら、2023年)という概念は、個人が自身の考えを内省し検討するプロセスを通常指しますが、Zero-Shot生成やCoT (Chain-of-Thought)プロンプトでは難しい複雑なタスクを解決するために探求されています。具体的には、自己反省にはLLMが前回の反復での回答とフィードバックに基づいて新しい回答を生成し、その新しい回答に対してフィードバックを提供するという反復的な改善プロセスが含まれます。自己反省はより良い解決策を生み出す効果がありますが、LLMの自己評価能力に大きく依存しており、これは公式に保証されていません(Shinnら、2023年)。 この研究では、自己反省における思考の劣化(DoT)問題に焦点を当てています。これは私たちが初めて提案し定義したものです。正式には、DoTは次のシナリオを指します:
LLMが一度解答に自信を持ち始めると、自己反省を通じて後に新しい考えを生成することができなくなります。
この問題を示すために、私たちは各質問についてディベート(または自己反省)中の2人の議論者間の反対の割合を平均不一致として定義します。Figure 1に示されているように、私たちは自己反省における反復ごとのスタンスの不一致を計算し、傾向を示しています。自己反省の低い不一致は、LLMがCoTによって予測された間違った回答に固執し、意味のある自己反省に従事できないことを示唆しています。
https://scrapbox.io/files/65af1a79f98d1000246d3bdd.png
DoTを引き起こすさまざまな要因がありますが、ここでは3つを概説します:
(1) 偏見と歪んだ知覚
自己認識は、事前トレーニング中に大量のデータから学習される偏見、先入観、歪んだ思考パターンによって影響を受けることがあります。LLMの自己反省がこのような偏見や歪んだ思考によって曇らされている場合、本能的に不正確な結論に導かれる可能性があります。
(2) 剛性と変化への抵抗
自己反省にはしばしば、自身の信念、仮定、行動に挑戦的になることが含まれます。LLMが変化に抵抗するか、剛性のある信念を持っている場合、より良い解決策につながる意味のある自己反省に従事することが困難になる可能性があります。
(3) 限られた外部フィードバック
自己反省は主に内部プロセスですが、外部フィードバックは貴重な視点や洞察を提供することができます。外部フィードバックを求めたり、考慮したりしない場合、LLMは重要な盲点や代替視点を見逃す可能性があり、これが自己反省を豊かにすることができます。
DoT問題に対処するため、私たちは人間の問題解決のもう一つの基本的な特性であるディベートを活用して、LLMにおける多様な思考を促進します。具体的には、マルチエージェントディベート(MAD)というフレームワークを提案しています。
https://scrapbox.io/files/65af33962d59670023bdc15b.png
https://github.com/Skytliang/Multi-Agents-Debate/blob/main/imgs/mad_qa_case1.gif
ここでは、二つのエージェントが「しっぺ返し戦略」状態でそれぞれの議論を展開し、意思決定者がディベートプロセスを監視し管理して最終解決策を得ます。MADの性質は、 (1) 一方のLLMの歪んだ思考が他方によって修正されること、
(2) 一方のLLMの変化への抵抗が他方によって補完されること、
(3) 各エージェントが他方から外部フィードバックを得ることができること
を決定します。したがって、MADはDoTの要因に対して影響を受けにくく、正確な解決策を得るための多様な連鎖思考を探求することができます。
私たちは、コモンセンス機械翻訳(Common MT)と反直感的算数推理(Counter-Intuitive AR)という、二つの難しいタスクにおいて、自然言語生成(NLG)と自然言語理解(NLU)に関する実験を行いました。これらのタスクの共通の特徴は、質問の表面的な表現のみに基づいては私たちの直感がほとんど間違っていること、そしてより良い解決策にはより深いレベルの熟考が必要であることです。実験結果は、MADフレームワークがベースライン方法よりもはるかに優れていること、特にMADを使用したGPT-3.5-TurboはCommon MTでGPT-4のパフォーマンスを超えることを示しています。 この研究の貢献は以下のようにまとめられます:
自己反省における思考の劣化(DoT)問題を提案し定義し、多様な連鎖思考を探求するためのマルチエージェントディベート(MAD)フレームワークを提案します。
二つの難しいタスクにおいてMADの有効性を実証し、MADを使用したGPT-3.5-TurboがCommon MTデータセットでGPT-4を上回ることを発見しました。
広範な分析から、ディベートの適応的な中断戦略と「しっぺ返し戦略」状態の適度なレベルがMADの良いパフォーマンスを得るために必要であることが示唆されます。さらに興味深いことに、異なるLLMがエージェントとして使用される場合、LLMが公正な意思決定者になり得ない可能性があることがわかりました。 2 マルチエージェントディベート(MAD)フレームワーク
アルゴリズム1はMADの詳細なプロセスを示しています。
https://scrapbox.io/files/65af21bffd769d0024fcb3ae.png
一般的に、私たちのMADフレームワークは以下のように説明される3つのコンポーネントで構成されています:
メタプロンプト
解決すべきトピック、議論者の数、反復の制限、その他の要件を導入するためにメタプロンプトを使用します。たとえば、議論の雰囲気を作り出すためにエージェントに「しっぺ返し戦略」を要求します。 議論者
N人の議論者D = {Di}がフレームワークに関与しています。各ディベート反復において、議論者Diは固定された順番で一人ずつ話し、前のディベートの歴史Hに基づいて自分の議論を表明します。つまり、Di(H) = hです。以下に議論者プロンプトの例を示します:
あなたは議論者です。翻訳コンペティションへようこそ、これはディベート形式で行われます。完全にお互いの視点に同意する必要はありません。目的は正しい翻訳を見つけることです。
意思決定者
また、ディベートプロセス全体を管理し監視する意思決定者Jを設計しました。意思決定者には2つの異なるモードがあります:
(a) 判別モード、意思決定者Jは現在の反復において全ての議論者が自分の議論を終えた後、正しい解決策が得られたかどうかを決定します
https://scrapbox.io/files/65af202fa791fe00255f9df7.png
Trueの場合、ディベートは終了します。それ以外の場合、ディベートは続きます。
(b) 抽出モード、意思決定者Jは全てのディベート歴史に基づいて最終解決策を抽出する必要があります。反復制限内で正しい解決策が識別されない場合:Je(H) = aです。
意思決定者プロンプトの例は以下の通りです:
あなたはモデレーターです。翻訳ディベートコンペティションには2人の議論者が参加します。彼らは自分の翻訳を提示し、与えられた中国語テキスト「吃掉敌人一个师。」の正しい英語翻訳について議論します。各ラウンドの終了時に、あなたは候補者の翻訳提出物を評価します。
3 難しいテストベッド
私たちは、LLMにとって深いレベルの熟考を要求する、コモンセンスマシン翻訳(つまり、Common MT)と反直感的算数推理(つまり、Counter-Intuitive AR)という、二つの難しいタスクに対する実験を行います。
3.1 コモンセンスマシン翻訳
Common MTデータセットは、中国語⇒英語翻訳の例(Heら、2020)で構成されており、翻訳モデルの曖昧さ解決能力を検証するために使用されます。Common MTの難しい部分では、各ソース文には曖昧な単語が含まれています。これらの曖昧な単語は直訳が明白であるように見えるかもしれませんが、そのような直訳は誤りです。このような曖昧さを特定し、対処しないと、不正確な翻訳になる可能性があります。この研究では、以下の実験で語彙の曖昧さテストセットを採用します。表1は例を挙げていますが、ソース単語「吃掉」は、実世界の常識を考慮すると「destroy」に翻訳されるべきで、直訳の「eat up」ではありません。
3.2 反直感的算数推理
以前の研究(Kongら、2022年;Weiら、2022年)によると、私たち人間には、迅速で直感的なシステムと、遅くて論理的なシステムがあり、高次のシステムよりも低次のシステムを先に稼働させる傾向があります。これに触発されて、LLMの深いレベルでの推論能力を評価するために、より挑戦的なデータセットであるCounter-Intuitive ARを作成しました。
データセットの説明
私たちのCounter-Intuitive ARデータセットには、引き出し質問(Kongら、2022年)から集められた50の質問が含まれています。他にも、ウェブデータと手動収集からの質問が含まれています。一般的に使用されるデータセット(例:MultiArith、GSM8K)と比較して、当データセットには2つの独特な課題があります: 直感への抵抗
私たちのデータセットに含まれる質問は、隠された罠が設計されており、直感的で魅力的な回答を引き出すことが多いですが、これらはしばしば間違っています。この特徴は、LLMが表面的な表現の罠に抵抗する能力を評価します。
多段階推論
データセット内の各正解は、厳格な多段階推論プロセスを要求するため、LLMが複雑な意思決定と問題解決に従事する能力を評価します。
データセット形式
私たちのCounter-Intuitive ARデータセットには、各例に3つの主要なコンポーネントが含まれています(表2に例を示します)。詳細は以下の通りです:
https://scrapbox.io/files/65af22d9b688db00256c37e9.png
質問
私たちのデータセットの質問は、反直感的な思考を刺激するように設計されており、直感的な反応がしばしば間違っている状況を提示することで、従来の意思決定に挑戦することを目的としています。
回答
各質問には、問題の深い理解と常識的な知識を必要とする正しい回答が提供されます。さらに、比較のために、ありそうで間違っている回答も提供されます。
説明
各正解のための詳細な説明を提供します。この説明は、正解に至るステップバイステップの推論プロセスを概説します。各誤った回答にも、一見論理的な推論プロセスを示す説明が付けられており、最終的に間違った回答に至ります。この推論プロセスは、特に直感が厳格な論理的推論よりも優先される場合に、意思決定中の潜在的な落とし穴や誤解を強調します。
4 実験
4.1 セットアップ
基盤モデル
この研究では、主にMADフレームワークで3つのエージェント(つまり、肯定的な議論者と否定的な議論者、および意思決定者)を使用します。特に記載がない限り、すべてのエージェントにデフォルトでGPT-3.5-Turboを基盤モデルとして使用します。 比較方法
Rerank(Heら、2023):LLMから翻訳を4回サンプリングし、その中から品質推定(QE)スコアラーに基づいて最良の候補を選択します。このアプローチは、多数決が外部のQEスコアラーに置き換えられた自己一貫性(Wangら、2022)に類似していると見なすことができます。
MAPS(Heら、2023):この方法は、LLMが人間の翻訳プロセスを模倣することを可能にします。つまり、分析してから翻訳することで、これは翻訳タスクに適用された連鎖思考法と見なすことができます。
Zero-Shot CoT(Kojimaら、2022):このアプローチでは、テスト質問に「Let’s think step by step」というトリガー文を連結します。 私たちはこれらの方法をGPT-3.5-Turboの上に実装しました。実装の詳細は付録A.1に記載されています。
https://scrapbox.io/files/65af23ff889bfd00232bcf5d.png
評価指標
コモンセンスマシン翻訳では、COMETやBLEURTのような自動指標を採用します。これらは、LLMベースの翻訳文献(Heら、2023年;Hendyら、2023年;Garciaら、2023年;Pilaultら、2023年)で広く採用されている評価指標です。さらに、翻訳結果に対する人間による評価も行い、その際には曖昧さの解消の正確さと翻訳品質の直接評価(1〜5の範囲)の2つの側面を使用します。
4.2 コモンセンスマシン翻訳
結果
表3に実験結果が示されています。MAPSとSelf-ReflectはベースラインのGPT-3.5-Turboを上回る改善を達成しました。特筆すべきは、私たちが提案したMADは、GPT-3.5を基盤モデルとして利用し、自動および人間の評価指標の両方でGPT-4を上回る顕著な進歩を示しました。
https://scrapbox.io/files/65af25207eb59f00245c140b.png
ケーススタディ
表4は、ベースラインのGPT-3.5-Turboと提案されたMADによって生成された翻訳例を示しています。ベースラインのGPT-3.5-Turbo(さらに強力なGPT-4も含む)は、ソースの単語を文字通りに誤って翻訳しています。DoT問題のため、Self-Reflectは文字通りの翻訳を修正できません。提案されたMADフレームワークは、多様な連鎖思考を探求し、ソース文内の下線付きの単語の自由翻訳を生成することができます。翻訳例の詳細なディベートプロセスは付録A.2で見ることができます。
https://scrapbox.io/files/65af268d0a9269002386010e.png
4.3 反直感的算数推理
結果
表5に推論の正確さに関する実験結果が示されています。Self-ReflectはベースラインのGPT-3.5-Turboを上回る改善を達成せず、一方でCoTとSelf-Consistencyはいくつかの改善をもたらしました。私たちのMADフレームワークはGPT-4ほど良くはありませんが、GPT-3.5-Turboに基づく他の比較方法よりも優れたパフォーマンスを示し、その有効性をさらに実証しました。
https://scrapbox.io/files/65af271714361d0026c643b2.png
ケーススタディ
表6は、反直感的算数推理に関する2つの例の出力を示しています。CoTとSelf-Reflectは正しい答えに到達することができませんでした。多様な思考を持つ私たちのMADフレームワークは、「Bの周りの回転とA自体の回転の両方を考慮する必要がある」という考えを生み出し、正しい答えを見つけました。詳細なディベートプロセスは付録A.2で見ることができます。
https://scrapbox.io/files/65af27430ab55a0024383857.png
5 分析
私たちは、MADフレームワークに関してより深い理解を得るために広範な分析を行いました。デフォルトでは、コモンセンスマシン翻訳データセットを使用します。
適応的中断の効果
まず、ディベートの停止戦略を調査します。各反復において、意思決定者Jに最終的な答え(a = Je(H))を抽出させ、アルゴリズム1のように適応的にディベートを中断させる代わりにします。
Figure 3はその結果を示しています。MADは反復が増えるにつれて自己反省よりも優れたパフォーマンスを示します。しかし、最高のCOMETスコアは最初の反復で現れ、適応的中断の結果よりも低いです。これは、ほとんどの例でMADは最初の反復で良い翻訳を生成できるため、ディベートを中断すべきであることを示しています。ディベートを続けることは翻訳結果に悪影響を及ぼし、私たちの適応的中断戦略の妥当性を示しています。
https://scrapbox.io/files/65af27cfe1abb00025ddfc3e.png
次に、「しっぺ返し戦略」の強度がMADのパフォーマンスにどのように影響するかを研究します。これを実現するために、ディベートプロセスを初期化するための異なるプロンプトを設計します(Table 12) https://scrapbox.io/files/65af2e860ab55a002438eb5c.png
Figure 4に示されているように、議論者に「しっぺ返し戦略」(つまり、より高い不一致)を求めることは、MADが良いパフォーマンスを達成するために必要です。しかし、「全ての点でお互いに異なる意見を持たなければならない」というプロンプト(不一致度0.988)は最良のパフォーマンスには至りませんでした。私たちは、共通の基盤を見つけることなく継続的に意見が対立することは、議論が翻訳精度の真実や理解を求めることよりも議論に勝つことについてになる偏極化につながる可能性があると推測しています。これは既存の偏見を強化し、合意や意味のある決定に到達することを困難にする可能性があります。 https://scrapbox.io/files/65af2eea2165d200227785c1.png
エージェントの振る舞い
意思決定者が最終的な解決策として各議論者の回答をどれだけの回数選択するかを計算することによって、エージェントの振る舞いを研究します。結果は表7にリストされており、以下の観察があります:
(1) 行①と行②を比較すると、意思決定者は一貫して否定側を支持する傾向にあり、これがMADのパフォーマンス向上に大きく寄与していると考えられます。複雑なタスクに直面する際、肯定側は間違いを犯しがちであり、改善を達成するためにはこれらを修正する必要があります。
https://scrapbox.io/files/65af30d49f7bff0023776c7e.png
(2)行③と行④(または行④と行⑤)を比較すると、意思決定者は基盤となるLLMと同じLLMを持つ側を好む傾向があることがわかります。このバイアスは、異なるLLMがエージェントとして使用される場合、LLMは公正な意思決定者ではないかもしれないことを示しています(Wangら、2023年)
https://scrapbox.io/files/65af31368a3b140022639a58.png
6 関連研究
最近、Weiら(2022年)は、LLMの推論能力を向上させるために連鎖思考(CoT)プロンプトを提案しました。具体的には、CoTは多段階問題の最終解答に至る中間ステップの一連を生成するようにLLMに促します。早期の研究は主にプロンプトの設計とデコーディング戦略に集中していました。Zero-Shot CoTは、トリガー文「Let’s think step by step」を使用してLLMのデコードをガイドします。多様な推論パスを生成するために、Self-Consistency(Wangら、2022年)、Auto-CoT(Zhangら、2022年)、Active-Prompting(Diaoら、2023年)、Complexity-based Consistency(Fuら、2022年)、Multi-Chain Reasoning(Yoranら、2023年)、Progressive-Hint Prompting(Zhengら、2023年)などの高度なサンプリング戦略が探求されています。 生成エージェント
最近、LLMに基づくマルチエージェントインテリジェンス(例:Generative Agents(Parkら、2023年)、Ghost in the Minecraft(Zhuら、2023b)、GPT-Bargaining(Fuら、2023年))が、人間の行動のシミュレーションを可能にするために注目を集めています。当研究は、LLMのDoT問題に対処するためにこの研究ラインに従います。当研究と同時に、いくつかの研究(Xiongら、2023年;Duら、2023年)もLLMの推論能力を強化するためにマルチエージェントディベートフレームワークを探求しています。提案されたMADフレームワークとこれらのアプローチとの主な違いは:(1) 当研究はLLMの固有の欠陥であるDoT問題に対処することを目的としています;(2) 当研究では、同じ基盤LLMを持つエージェントを使用することで、MADフレームワークが強化されたパフォーマンスを達成できることが実証的に見出されています。
7 結論
自己反省における思考の劣化(DoT)問題を提案し定義し、多様な連鎖思考を探求するためのマルチエージェントディベート(MAD)フレームワークを提案し、それに対処しました。当研究では、二つの難しいタスクにおいてMADの有効性を実証し、MADを使用したGPT-3.5-Turboがコモンセンスマシン翻訳データセットでGPT-4を上回ることがわかりました。広範な分析から、ディベートの適応的中断戦略と「タイト・フォー・タット」状態の適度なレベルがMADに良いパフォーマンスを得るために必要であることが示唆されました。さらに興味深いことに、異なるLLMがエージェントとして使用される場合、LLMは公正な意思決定者ではないかもしれません。将来の研究には、ディベートでより多くのエージェントをスケジューリングする、ボードゲーム用のマルチエージェント、およびモデルアライメントのためのAIフィードバックが含まれるかもしれません。