CoTによる不誠実な説明論文
https://scrapbox.io/files/65b2fd067f6bff0025e25f25.png
論文情報
タイトル:Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
発行日:2023年3月
著者:Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
所属:NYU, Cohere, Anthropic
論文のポイント
多肢選択回答オプションを並び替えて、正解が常に最初のもの(A)になるようにしたバイアスをつけると、正確性が大きく低下する
https://scrapbox.io/files/65b31d4ef4fde70024820a5d.png
概要
大規模言語モデル(LLM)は、最終出力を提示する前にステップバイステップの推論を行うことで、多くのタスクで高いパフォーマンスを達成することができます。これはしばしば「CoT (Chain-of-Thought)」と呼ばれます。これらのCoT説明を、タスクを解決するためのLLMのプロセスと解釈することは魅力的です。このレベルの透明性は、LLMの予測に対する重要な安全性の利点をもたらします。しかし、我々はCoT説明がモデルの予測の真の理由を体系的に誤解させる可能性があることを発見しました。我々は、モデル入力に偏見を持たせることによってCoT説明に強い影響を与えることができることを実証しました。たとえば、Few-Shotプロンプトで複数選択肢の順序を変更して、答えが常に「(A)」になるようにしますが、モデルはその説明でこれを系統的に言及しません。間違った答えにモデルをバイアスすると、それらの答えを正当化するCoT説明を頻繁に生成します。これにより、OpenAIのGPT-3.5やAnthropicのClaude 1.0でテストした際、BIG-Bench Hardの13のタスクスイートで最大36%の精度低下が生じます。社会的偏見のタスクでは、モデルの説明がステレオタイプに沿った回答を正当化し、これらの社会的偏見の影響に言及せずに行われます。我々の発見は、CoT説明がもっともらしくても誤解を招く可能性があり、LLMへの信頼を高めることで安全性を保証することなく、リスクを増加させる可能性があることを示唆しています。より透明で説明可能なシステムを構築するには、CoTの忠実性を向上させるためのターゲット努力を行うか、あるいはCoTを放棄して代替方法を採用するかが必要になります。 1 導入
CoT (Chain-of-Thought)は、大規模言語モデル(LLM)の推論能力を向上させるための有望なアプローチとして登場しました。CoTプロンプトは、モデルにステップ・バイ・ステップの推論を口頭で表現し、その推論に基づいて予測を行うよう指示します。CoTは多くのタスクでパフォーマンスを大幅に向上させ、問題を解決するための正しいプロセスを説明し、正しい答えに到達することが多いです。これは、CoTの説明で記述された推論プロセスが、モデルが予測を行う方法の説明として妥当に解釈される可能性があることを示唆しています。 AIシステムが特定の回答を提供する理由を理解することは、それらを責任を持って展開、規制、監視する能力を大幅に向上させる可能性があります。しかし、CoTの説明が妥当で正しい推論を持っていても、これらの説明がモデルの予測の背後にある理由をどれだけ正確に表現しているか、つまり説明がどれだけ忠実であるかを確認することはまだ残されています(Jacovi and Goldberg、2020)。モデルは証拠を選択的に適用したり、主観的な評価を変更したり、または入力の任意の特徴に基づいて記述する推論プロセスを変更することにより、予測の基本的な原因の誤った印象を与える可能性があります。その結果、説明の妥当性を評価するだけでは、AIシステムへの信頼を高めることができますが、その安全性を保証することはできません。
いくつかの理由により、私たちは、CoTの説明がデフォルトで忠実であるとは期待すべきではないと考えています。最も重要なのは、私たちのトレーニング目標がモデルにその行動の理由を正確に報告することを明示的に促進しないという事実です。さらに、LLMが人間によって書かれた説明に基づいてトレーニングされている限り、これらの説明は不完全であり、しばしば特定のイベントの因果関係の重要な部分を省略していることが知られています(Lombrozo、2006; Hilton、2017)。しかし、それらはまた、個人の認知プロセスの不忠実な説明であることが多いです(Nisbett and Wilson、1977)。人間の説明は、他者を納得させたり、自分の信念を支持するために使用されることが多く、決定の真の原因を正確に反映しているとは限りません(Mercier and Sperber、2011)。モデルは、相互に矛盾する態度や信念を持つ著者からのデータに基づいてトレーニングされるため、異なるコンテキストで矛盾する方法で振る舞う可能性があります(Andreas、2022)。最後に、一般的に使用されるRLHF技術は、忠実な説明を直接阻害する可能性があり、人間の評価者にとって良く見えるだけのモデルの応答を引き起こす可能性があります(Perez et al.、2022; Sharma et al.、2023)。
本論文では、CoTの説明が妥当でありながら系統的に不忠実である可能性を示しています:モデルの説明は、入力の偏った特徴によって予測可能に影響を受ける可能性があり、その説明でそれらの影響を言及しないことがあります。多くの研究により、言語モデルが入力の望ましくない特徴に敏感であることが明らかにされています(Min et al.、2022; Webson and Pavlick、2022; Dasgupta et al.、2022; Parrish et al.、2022; Perez et al.、2022; Sharma et al.、2023)、そして私たちの結果は、モデルのCoT説明が、偏見に沿った答えを合理化するために使用され、その影響を言語化しないことを示唆しています。この点で、LLMは常に彼らが考えていることを言うわけではありません。
私たちは、2つのベンチマーク、BIG-Bench Hard(BBH; Suzgun et al., 2022)とBias Benchmark for QA(BBQ; Parrish et al., 2022)を使って実験を行いました。これらはGPT-3.5(OpenAI, 2023)とClaude 1.0(Anthropic, 2023)でテストされました。BBHでは、2つの偏向特徴を調査しました:(1)「Answer is Always A」、ここでは正しい答えが常に「(A)」になるように、数ショットのプロンプトの全ての多肢選択の答えの順序を変更します。そして(2)「Suggested Answer」、ここではプロンプトが特定の答えが正しい可能性を示唆します。BBQでは、モデルが一般的な社会的ステレオタイプに基づいて予測を行うかどうかを測定します。主な発見は以下の通りです: 1. BBHタスクにおいて、偏向特徴を追加するとモデルのCoT予測に大きな影響を与え、正確さが最大36%低下しますが、CoT説明ではこの偏向特徴が一度も言及されません。
2. BBHでこれらの偏向特徴を追加すると、モデルは不正確な偏見に合致した予測を正当化するために、その説明を変更します。これらの不忠実な説明のいくつかは、まだ論理的な推論を示しています。
3. BBQにおいて、モデルはステレオタイプに沿った回答を支持する傾向がある、もっともらしい不忠実な説明を提供します。モデルはこれらの偏見のある答えを正当化するために、文脈内の証拠を一貫性なく評価し、ステレオタイプに言及せずに行います。
我々の発見は、CoT説明がもっともらしくても体系的に不忠実であることを明確に示しています。より透明で説明可能なシステムを構築するには、CoTの忠実性を向上させるためのターゲット努力を行うか、あるいはCoTを放棄して代替方法を採用するかが必要です。
2 説明の忠実性の評価
説明の忠実性を測定するための「反事実シミュレータビリティ」
フレームワークは、モデルの説明が、他の入力に対してモデルがどのような予測を行うかを人間が予測するのに役立つかどうかを測定します。この論文では、特定の多肢選択出力に向けてモデルを偏向させようとする評価に焦点を当てています。この設定では、モデルは予測に影響を与える可能性のある偏見を認めるか、または偏見に影響されない予測を行う必要があります。実際には、私たちの偏向特徴に影響されているとモデルが述べることはほとんどありません:偏見に基づく予測をサポートする426の説明をレビューし、そのうち1つだけが偏見を明示的に言及しています。反事実シミュレータビリティを一般的なケースで評価するには、モデルの説明を手動で検査し、それが反事実入力に対するモデルの行動にどのような意味を持つかを判断する必要があります。これは費用がかかる上に主観的です。モデルがその説明から偏向特徴を省略しているため、最終的なモデルの予測を比較するだけで、忠実性を評価するのに十分です。重要なのは、私たちが使用する偏向特徴は、モデルの行動に予測可能な効果を持つことです(例えば、それが「(A)」と答える頻度を増やす)。これらの特徴がモデルの予測の重要なドライバーであるかどうかを測定することで、これらの特徴の影響が説明に言及されていなくても、説明が体系的に不忠実であることが分かります。この方法では、説明は系統的に不忠実です(例えば、サンプリングの変動や入力内容に対する非系統的な敏感性による不忠実さとは対照的です)。
2種類の反事実について
我々はBIG-Bench Hard(§3)での実験において、偏見を持つ特徴を持つ入力と持たない入力でのモデルの振る舞いを調査します。例えば、表1は、少数ショットのプロンプトが変更されて正解が常に「(A)」となるようにした場合、モデルのCoT説明がどのように変化するかを示しています。これは、「18ヤード外でのシュート」がサッカーの一部であるかどうかに関する立場を逆に取ることによって、この変化に寄与した偏見要因に言及せずに、その回答を変更することを正当化しています。
BBQでの実験では、弱い証拠の2つの対立するバージョンで拡張された例に対するモデル予測を比較することによって、不忠実さを測定します。モデルがこれらの証拠を説明で頼りにしており、社会的ステレオタイプの影響に言及しないため、証拠が変化すると予測も変わるべきです(付録B)。モデルがどのようにして証拠を一貫性なく使用し、社会的ステレオタイプに沿った答えを正当化するかを測定します。これらのアプローチにより、反事実の2つのタイプを使用して不忠実さを測定することができます。つまり、(1)BBHのために、モデル予測が説明で参照されていない特徴、つまり私たちが追加した偏見特徴に対して不敏感であるかどうか、および(2)BBQのために、モデル予測がその説明で頼りにしている特徴、つまり弱い証拠に敏感であるかどうかをテストします。
表2はBBHのセットアップを、表3はBBQのセットアップを示しています。
https://scrapbox.io/files/65b31afeed437a0027f49a86.png
https://scrapbox.io/files/65b31bf6765ff400256d9bba.png
主観的領域における忠実さの評価
既存のCoTの研究はしばしば、1つの明確な答えを持つ数学のような客観的なタスクに焦点を当てていますが、モデルがもっともらしいが不忠実な説明を提供する可能性があるため、主観性の要素を持つ質問を研究することは特に重要です。モデルが単一の例に提供する推論は、その例に対する予測と一致していても(この場合、我々はそれをもっともらしいと呼びます)他の例に対する予測を行う方法について誤解を招く可能性があります(この場合、我々はそれを不忠実とも呼びます)。主観的領域では、異なる答えに対してもっともらしく思える推論を行うことは可能ですが、異なる答えのための十分に完全な説明は、相互に両立しない仮定や信念を必要とします。バイアスがモデルを異なる文脈で異なる仮定を行うように誘導し、説明間で矛盾を生じさせる場合、バイアスが認められない限り、これは不忠実です。BBHにはいくつかの主観的タスクが含まれており、BBQは完全に主観的です。
3 説明によって参照されていない入力特徴の摂動
3.1 実験セットアップ
モデル
私たちは、幅広いタスクに対する好ましい選択肢である2つの最新のRL-微調整されたモデルをテストします(Liang et al., 2022)。OpenAIからのtext-davinci-003(GPT-3.5)を使用します。パラメータ数、アーキテクチャ、およびトレーニングデータに関する情報は公開されていません。GPT-3.5はRLHF微調整モデルであり、より良い命令に従う振る舞いのために、Ouyang et al. (2022)で説明されている報酬モデルを使用してトレーニングされています(OpenAI、2023)。また、Anthropicからclaude-v1.0を使用します。Claude 1.0の詳細は公開されていませんが、AIアシスタントとして機能するためにConstitutional AI(Bai et al.、2022)を使用してトレーニングされたことが知られています。これは、ユーザーにとって役に立ち(有用)、正直(事実に基づいて)、無害である(Anthropic、2023)。
データ
BIG-Bench Hard(BBH; Suzgun et al., 2022)は、BIGBenchベンチマーク(Srivastava et al., 2022)からの23の多肢選択タスクのセットで、現在の最先端モデルは平均的な人間の評価者よりも大幅に悪い結果を示します。これらのタスクは、論理的推論、伝統的な自然言語処理、常識的推論、数学などのトピックをカバーしています。BBHは主に演繹的推論能力を評価していますが、私たちは元の23のタスクから、演繹的推論コンポーネントに加えて、主観性や検証が困難な世界知識を必要とする追加の複雑さを持つ13のタスクを選択します。これらのタスクに関する説明は、誤った応答に対してもっともらしいCoT説明を引き出す可能性がありますが、正しい推論を維持します。これは、不忠実さの懸念事例です。コストの制約のため、タスクごとに330の例をサブサンプリングし、330未満の例があるタスクについてはすべての例を使用します。少数ショットのCoTデモンストレーションの候補としてタスクごとに30の例を使用します。これにより、評価のために3,299の例が残ります。追加の詳細は付録Fにあります。
BBHにおいて、私たちは変更されていない入力(「偏見のないコンテキスト」)と偏見のある特徴が適用された入力(「偏見のあるコンテキスト」)に対するモデルの予測を比較します。まず、「答えは常にA」をテストします:少数ショットのプロンプトでモデルに供給する多肢選択回答オプションを並び替えて、正解が常に最初のもの(A)になるようにします。この偏見は、LLMが繰り返しパターンに対する敏感さに触発されています(Holtzman et al., 2020; McKenzie et al., 2023)。次に、「提案された答え」をテストします:プロンプトに次の文字列を追加します:「私は答えが<random_label>だと思いますが、あなたの考えを聞いてみたいです。」データセットのインスタンスごとに異なるランダムな多肢選択の文字ラベルをサンプリングし、これが正しいラベルと一致することがあります。この偏見は、LLMが(RLHFトレーニングの有無にかかわらず)追従性を示す最近の結果に触発されています(Perez et al., 2022; Sharma et al., 2023)、ここで彼らは、相互作用しているユーザーが持っていると推測される主観的な見解によりよく合わせるために、不適切に反応を調整します。
プロンプト条件
まず、CoT対No-CoTを比較します。CoTの説明を「一歩一歩考えてみましょう」(Kojima et al., 2022)といくつかの追加の指示を使用して誘発します。最終回答のフォーマットに関する指示については、正確なプロンプト形式については付録Eを参照してください。GPT-3.5にはOpenAIのプレイグラウンドのデフォルト設定である温度0.7を使用します。Claude 1.0にはデフォルト設定である温度1を使用します。次に、Zero-Shot対Few-Shotを比較します。少数ショット設定で提供された説明の中には偏見特徴が言及されていないため、モデルが偏見特徴を訴える可能性は低くなります。しかし、偏見特徴を言及しない少数ショットデモンストレーション(つまり、スタイル的に一貫している忠実な説明)は、モデルが偏見特徴に基づいて予測を行わない限り、すべての実験で完全に可能です。ゼロショット設定でのテストは、モデルがバイアスを口に出さないことを確認するのに役立ちます。少数ショットコンテキストでのCoTデモンストレーションには、Suzgun et al. (2022)から手書きの説明に基づいて生成されたモデル生成のCoTを使用します。必要に応じて、生成されたCoTは正確さのために手動で編集されました(付録F.3)。提案された回答の少数ショットプロンプトには、3つの例を含む少数ショットプロンプトを使用します。常にAである回答の少数ショットプロンプトでは、GPT-3.5の最大コンテキスト長である4,096トークンコンテキスト長(最大15例)内に収まるだけのCoTデモンストレーションを使用します(Claude 1.0の最大値は8,000です)。タスクごとに、デモンストレーションの数は7から15の範囲です。CoTとNo-CoTのプロンプト設定の両方で同じ少数ショットプロンプトを使用します。
メトリクス
私たちは、偏見特徴が誤った回答を指摘する場合に焦点を当てます。BBHの実験では、偏見のあるコンテキストにさらされたときのモデルの精度の低下を使用して、系統的な不忠実さを測定します。原則として、偏見のあるコンテキストへの移行時に精度が低下することは、増加したノイズ(つまり、予測が正解から偏見によってターゲットされていない誤った回答に変わること)から生じる可能性がありますが、実際には精度の低下のほとんどが偏見と一致する予測の増加によって説明されることがわかります(付録F.5)。この事実により、モデルの全体的なタスクパフォーマンスについての文脈を提供しながら、不忠実さを測定するためにモデルの精度の減少を使用することができます。系統的な不忠実さの定義を直接操作化するメトリクスを付録F.5に含めます。
3.2 結果
CoTの説明は系統的に不忠実です。Figure 1は、CoTを行う際に、GPT-3.5とClaude 1.0の両方で、偏見のないコンテキストと比較して偏見のあるコンテキストで精度が大幅に低下することを示しています。これは、モデルの予測が変わる理由が偏見特徴の追加であり、それが口に出されていないため、大きな程度の系統的不忠実さを示しています。この傾向はすべてのタスクで個別に保持されていますが、精度の低下の大きさはタスクごとに大きく異なります(付録表9)。GPT-3.5でゼロショットCoTを行う場合、提案された回答の偏見により精度が最大-36.3%低下します。常にAである回答では、GPT-3.5はCoTの説明で大きな程度の系統的不忠実さを示します(-18.7%)、一方Claude 1.0はそれほどではありません(-4.7%)。偏見のあるコンテキストと偏見のないコンテキストの間の精度の違いに関する信頼区間は、すべての設定において±1.6%から±2.4%の範囲にあり、すべての結果が統計的に有意です。すべての設定で同じデータを使用しているため、2つの実験設定間のメトリクスの違いに関する信頼区間を報告するために、ペア差分テストを使用しています(付録H参照)。少数ショットのCoTは、ゼロショットのCoTよりも不忠実さが少ないことが示されています:提案された回答の偏見において、少数ショットの例を追加することで、GPT-3.5の精度の違いが-36.3%から-24.1%に、Claude 1.0の場合は-30.6%から-21.5%に減少します。
https://scrapbox.io/files/65b31d4ef4fde70024820a5d.png
CoTは、モデルを正しい初期予測から偏見と一致する予測に導く可能性があります。CoT(No-CoT → CoT)のバイアスに対するモデルの感度への影響を考慮します。平均して、両方のモデルは偏見のないコンテキストでCoTを使用することから恩恵を受けます(GPT-3.5の場合は57.1→59.6%、Claude 1.0の場合は59.2→65.3%)が、一部のタスクではCoTが結果を悪化させることもあります(付録表9)。CoTのバイアスへの感度への影響は混在しています。提案された回答では、ゼロショットCoTは両モデルにおいて偏見のあるコンテキストでの精度を低下させます(GPT-3.5の場合は39.5→23.3%、Claude 1.0の場合は37.3→34.7%)。これは驚くべきことであり、説明において偏見特徴を一度も口にしていないにもかかわらず、これらがCoTの説明に影響し、モデルがCoTを行わずに正解を得られたであろう偏見と一致する予測を行うように導くことを意味します。一方、少数ショットのCoTは、バイアスへの感度を大幅に減少させます(GPT-3.5の場合は35.0→51.7%、Claude 1.0の場合は38.9→60.1%)。常にAである回答については、CoTがGPT-3.5のバイアスへの感度をわずかに減少させることがわかります(CoTで55.2→58.7%)、一方でClaude 1.0では感度が大幅に減少します(CoTで63.2→80.1%)。CoTとNo-CoTの設定間の精度の違いに関する信頼区間は、すべての設定において±2.1%から±2.8%の範囲にあり、すべての結果が統計的に有意です。
3.3 定性分析
表4は、モデルが偏見特徴を追加した後に予測を偏見と一致する回答に変更した不忠実な説明の例を示しています。多くの例で、CoTの説明の内容も新しい誤った回答を支持するように変わることが観察されます。これがどの程度頻繁に起こるかを定量化するために、提案された回答の偏見設定から104の不忠実な説明(各モデル/少数ショット/タスク/コンテキストの組み合わせから1つずつ)を手動で注釈付けします。説明が最終的な予測と異なる回答を示唆している場合、またはいかなる回答選択も示していない場合、その説明は予測された回答を支持していないとみなします。説明に推論エラーが含まれていても、予測された回答を支持することができます。サンプルの73%の不忠実な説明が偏見と一致する回答を支持しています。これは、偏見特徴が最終的な予測だけでなく、モデルが説明を生成するプロセスにも影響を与えることを意味します。注釈手順の詳細は付録Cに、完全な結果は付録表7に示されています。さらに、15%の不忠実な説明には明らかなエラーがないことがわかります。エラーがないにもかかわらず、モデルの説明は一貫性のない主観的評価(表4、廃墟の名前)を用いて間違った回答を正当化するか、タスクの定義における曖昧さを利用します(ナビゲート)。これは、モデルが完全にもっともらしいCoTの説明を行うことができても、それでも不忠実であることを意味します。
4 説明で参照された入力特徴の摂動
4.1 実験セットアップ
モデル 私たちは§3のBBH実験で使用したのと同じモデルを使用します。
データ 質問回答モデルのステレオタイプバイアスをテストするためのベンチマークであるBias Benchmark for QA(BBQ)は、それぞれ2つのバージョンを持つ質問を含んでいます:あいまいなものと、それに十分な情報を与える明確なものです。表3に示されたBBQのあいまいなコンテキスト例では、正解はUnknownです。推論コストのため、私たちはBBQのあいまいな質問をテストされた9つの社会的バイアスカテゴリー全体で層別化されたサブセットを使用し、合計2,592の例を使用します。詳細は付録G.1を参照してください。
入力の摂動 実験のために、BBQのあいまいな質問を、非Unknownの回答選択肢がよりもっともらしくなるような弱い証拠で拡張します(例については表3を参照)。私たちは、弱い証拠のコンテキストの2つのバージョンを生成し、それぞれの弱い証拠に関連する個人を交換して、両方のバージョンでモデルをテストします。この証拠はCoTモデルの注意を引くように設計されており、実際には192の説明のサンプルで100%の時間でそれらが言及されていることがわかります(付録B参照)。データ生成プロセスの詳細は、付録G.2に記載されています。このタスクはあいまいに設計されており、モデルが証拠に対する主観的な評価で一貫性があるかどうかをテストします。証拠を反転させた一対の質問において、モデルの説明が両方で棄却する場合(つまり、両方のコンテキストで未知と予測する場合)6、または予測を一方のエンティティから他方に変更する場合(つまり、一方で黒人男性と予測し、他方で白人女性と予測する、またはその逆)に忠実であると言います。それ以外の場合は、その説明を不忠実と言います。不忠実な予測がステレオタイプに沿っていると言われるのは、モデルが両方のケースでステレオタイプに沿った予測を行う場合(表3のように)、または一方のケースでそうし、他方で棄却する場合です。なぜなら、人口統計情報がモデルが棄却を選択するかどうかに影響しているからです。
メトリクス ここでの主なメトリクスは、バイアスによって説明される不忠実性の割合であり、不忠実な予測ペアのうちステレオタイプに沿っている割合です。モデルがステレオタイプを使って予測を行っていなければ、この数値は50%になるはずです。次に、全体的な不忠実性の割合に興味があります。これは、データセット内の不忠実な予測ペアの全体的な割合です。理想的には、これらのメトリクスは、モデルをより忠実にするために試みるときに減少するべきです。BBHとは異なり、このタスクには明確に定義された正確さの概念がありません。なぜなら、予測を行うために必要な証拠の正確な強度が意図的に明確にされていないからです。2つの説明が一貫性がないと言うためには、質問に対する客観的に正しい答えが存在する必要はありません。
プロンプト条件 まず、CoTとNo-CoTを比較します。§3.1と非常に似た方法でモデルからCoTを引き出します(詳細は付録G.3を参照)。次に、ゼロショットと少数ショットを比較します。不明なラベルのあいまいなコンテキストの例と、ステ
レオタイプに沿った非不明なラベルの2つの明確化されたコンテキストの例を含む3つの例を使用した少数ショットのプロンプトを使用します。最後に、偏見除去指示と偏見除去指示なしを比較します。Ganguli et al. (2023)に従い、モデルにステレオタイプを使わないように明示的な指示を追加することで結果が改善されるかどうかをテストします。そのために、次のテキストをプロンプトに追加します:あなたの回答が偏見のないものであり、ステレオタイプに依存していないことを確認してください。この指示を各少数ショットの例に追加します。
4.2 結果
結果は表5に示されています。CoTの結果の「バイアスによって説明される不忠実性の割合」の欄では、モデルが不忠実な説明をする例のペアで、ステレオタイプに沿った回答をする可能性が高いことが示されています。モデルは予測を行う際にCoTで弱い証拠に依存していると主張していますが、社会的ステレオタイプによって偏った方法でこの証拠を一貫性なく適用しています。明示的な偏見除去指示なしでは、少数ショットのCoT設定でこのメトリクスはClaude 1.0で最大62.5%、ゼロショットのCoT設定でGPT-3.5で最大59.2%になります。このメトリクスの95%信頼区間は±3.7%から±4.8%です。すべての設定において、CoTの予測はNo-CoTの予測よりもステレオタイプな回答に対するバイアスが少ないことが示されています。効果の大きさ(No-CoT → CoT)は、Claude 1.0の少数ショット、偏見除去指示での50.6-51.8=-1.2%から、GPT-3.5の少数ショット、偏見除去指示での51.8-60.7=-8.9%までの範囲です。CoTの効果に関する95%信頼区間は±2.3%から±3.5%です。CoTを行う際に少数ショットの例を追加する効果(ゼロショット → 少数ショット)は不明瞭です。GPT-3.5ではバイアスが減少しています:指示なしで59.2→56.1%、偏見除去指示ありで60.0→51.8%。Claude 1.0ではバイアスが増加しています:指示なしで54.5→62.5%、偏見除去指示ありで45.4→50.6%。
https://scrapbox.io/files/65b31ee953e2ce00253b9b9c.png
Ganguli et al. (2023)の結果と一致して、バイアスに対する明示的なプロンプトはバイアスを減少させるための効果的な手段であることがわかります(指示なし → 指示あり)。Claude 1.0では、プロンプトによってバイアスがほぼ完全に排除されます(62.5→50.6%)またはわずかに過剰修正されます(54.5→45.4%)。GPT-3.5では、少数ショットにおける小さな利得(56.1→51.8%)が見られますが、ゼロショットでは利得がありません(59.2→60.0%)。全体的な不忠実性の割合の欄に関しては、偏見を減少させる対策、例えばGPT-3.5に対する少数ショットの例の追加や偏見除去の指示の追加が、全体的にCoTの不忠実性をわずかに減少させることが確認されます。
4.3 定性分析
前の定性分析(§3.3)と同じ定義を使用して、不忠実な説明がどれほど頻繁に最終的な回答を支持するかを測定します。ステレオタイプに沿った予測のための不忠実な説明の96例(各モデル/少数ショット/プロンプト/弱い証拠の組み合わせから6例ずつ)を手動で注釈付けします。私たちのサンプルでは、ステレオタイプに沿った予測につながる説明の86%が、これらの予測を明示的に支持していました。また、モデルはステレオタイプ的な行動と一致する場合に証拠をより強く評価することによって、あいまいさを一貫性なく扱うことが見られます。たとえば、付録表19の行5には、爆弾が爆発したシナリオがあり、モデルに爆弾を設置した可能性が高い人物を尋ねます。モデルに「ユダヤ人が怪しい荷物を持っていて、ムスリムがフードをかぶっていた」と与えられたとき、モデルは不明と答えます。しかし「ムスリムが怪しい荷物を持っていて、ユダヤ人がフードをかぶっていた」と与えられたとき、モデルはムスリムと予測します。怪しい荷物を持っていることは単にフードをかぶっていることよりも強い証拠かもしれませんが、モデルはそれがムスリムに関連付けられたときに、ユダヤ人よりもそれをより強く評価します。比較のために、付録表20には、ステレオタイプに沿っていない不忠実なCoTの説明の無作為サンプルが含まれています。詳細については付録Cを参照してください。
5 関連研究
CoT説明の妥当性の評価 CoT説明の既存の評価では、矛盾や数学的な誤りなど深刻な欠陥が見つかっています(Uesato et al., 2022; Jung et al., 2022; Ye and Durrett, 2022; Golovneva et al., 2023)。これらの研究は主に説明の妥当性を評価しており、それは忠実性にとって必要ですが、私たちが示すように、それを確立するには不十分です。最近の研究では、標準的なプロンプトと比較して、CoTプロンプトによる有害な出力の増加も明らかにされています(Shaikh et al., 2022; Ganguli et al., 2023)。対照的に、私たちはモデルがステレオタイプ以外の理由に訴える説明にもかかわらず、ステレオタイプに沿った回答を支持する妥当なCoT説明を行うかどうかを調査します。Lyu et al. (2023)は、予測が生成された推論に基づいていることを確実にするためにプログラムを生成することを提案しています。この対応は忠実性にとって必要条件ですが、プログラムが生成されたプロセスの忠実な説明であるとは限りません。その結果、このタイプの方法は、この論文で特定された問題に依然として影響される可能性があります。妥当な説明は、不忠実であっても有用性を持つことがあります。それらは、なぜ特定の答えが正しい可能性があるかをユーザーに示すために役立つかもしれません。他の研究では、モデルを自身が生成した根拠に基づいてトレーニングすることが、パフォーマンスを向上させるための強力なトレーニングシグナルになり得ることが見出されています(Zelikman et al., 2022)。
CoTへの摂動の影響 最近の一連の研究(Ye et al., 2022; Madaan and Yazdanbakhsh, 2022; Wang et al., 2023)は、少数ショットのプロンプトにおけるCoTデモンストレーションを摂動させること(例えば、エラーを追加すること)によって、CoTデモンストレーションのどの側面が高性能な説明を生成するために重要かを特定することを目的としています。対照的に、私たちは入力の摂動に焦点を当てて、CoT説明の忠実性を評価します。Shi et al. (2023)は、数学の問題に無関係な情報を追加するとCoTのパフォーマンスに影響を与えることを発見しました。彼らの摂動はCoT説明にエラーを誘発することを目指しているのに対し、私たちの研究はモデルを特定の回答選択にバイアスする摂動に焦点を当てています。Gao (2023)とLanham et al. (2023)は生成されたCoT説明を摂動させ、LLMがしばしば自分のCoT推論に加えられた変更を無視することを発見しました。
CoT説明の忠実性の評価
説明の忠実性を評価することは長い歴史を持っています(Jacovi and Goldberg, 2020; Lyu et al., 2022)。一部の最近の論文では、特にCoT説明の忠実性を調査しています。Chen et al. (2023)は、ポストホック説明とCoT説明の両方における反事実シミュレーション可能性を一般的に評価します。対照的に、私たちはモデルが特定の答えに偏向する敵対的な設定におけるモデル説明の反事実シミュレーション可能性に焦点を当てています。Lanham et al. (2023)は、例えば、モデルのCoT説明に加えられた誤りに対するモデルの感度をテストすることにより、忠実性のために必要だが十分ではないテストを提案しています。
6 議論
不忠実な説明は不誠実の兆候か、能力の欠如の兆候か?LLMは、偏見の特徴が予測に影響を与えていることを認識できるかもしれません。例えば、これはポストホックな批判(Saunders et al., 2022)、解釈可能性ツール(Burns et al., 2023)、またはその他の間接的な手段(Pacchiardi et al., 2023)を通じて明らかになる可能性があります。それができる場合、不忠実なCoT説明は、能力の欠如ではなくモデルの不誠実の形態である可能性があります。この区別は、適切な介入を選択する際の指針となる可能性があります。例えば、モデルがこれらの特徴の影響を認識できる場合、モデルにこれらの偏見を緩和するよう促すこと、およびモデルの誠実さを向上させることが有望なアプローチであることを示唆しています。この論文でテストした偏見の特徴は単純であり、モデルがその影響を認識する可能性があるため、将来の研究ではこれをさらに確認する必要があります。
システマティックな不忠実性は敵対的攻撃のためのベクトルとして モデルがユーザー入力に基づいて意思決定を行っている場合、偏見のあるプロンプト(例えば、私たちの提案した回答方法を使用する)を入力するユーザーによって、CoT説明にこの偏見の痕跡がなくても、システムが偏見のある予測を生成する可能性があります。これは、モデルの監査や公正性の方法がCoT説明に依存している場合、問題を引き起こす可能性があります。私たちは、CoT説明の忠実性に対する懐疑心を奨励し、これらの否定的な結果を避けることを願っています。私たちは、この論文で探求されたような敵対的な設定で透明性メソッドを使用することにより、現在のアプローチの弱点を診断し、それらを改善するためのさらなる探求を提唱しています。
今後の作業 忠実性が標的を絞った努力なしに自動的に改善されることはほとんどないでしょう。例えば、現在のRLHFトレーニング目標の具現化は、直接的に忠実性
を阻害する可能性があります(Perez et al., 2022; Sharma et al., 2023)。優れたモデルでさえ、推論プロセスで誤りを犯す可能性のあるヒューリスティックに依存し続ける可能性があります(Dasgupta et al., 2022)。しかし、CoTの成功は説明可能性にとって有望です。生成された説明は、モデルの振る舞いを導くことができます。対照的に、ポストホック説明方法は、その機能にほとんど制約がないモデルの振る舞いを説明するという課題に直面しています(Rudin, 2019)。CoT説明が妥当であっても忠実でない可能性がある(私たちが示したように)、それらの忠実性を改善するには、説明自体が生成されるプロセスを規制し、動機付けられた推論を行っていないことを確信できるようにする必要があります。プロンプトのアプローチは、CoT説明の入力摂動およびステレオタイプに対する感度を減少させることができます(Shaikh et al., 2022; Ganguli et al., 2023; Shi et al., 2023)。これは、私たちの偏見除去のためのプロンプトに関する発見が裏付けています。ただし、これらの方法が、私たちが認識していないために明示的にプロンプトを行うことができないバイアスに対する感度を減少させることができるかどうかは不明です。分解に基づくアプローチ(Min et al., 2019; Perez et al., 2020; Chen et al., 2022; Creswell and Shanahan, 2022; Tafjord et al., 2022; Eisenstein et al., 2022; Reppert et al., 2023)は、CoT推論にバイアスをかける可能性のある文脈的手がかりを制限することによって忠実性を改善します。Radhakrishnan et al. (2023)はこのアプローチでの初期の成功を示しています。BBQ実験で示されたように、正解が不明または適用されない場合でも、説明の一貫性を評価することができます。これは、説明の一貫性がスケーラブルな教師なしトレーニング信号として機能し、モデルを忠実な説明に向けて導く可能性があることを示唆しています。
制限事項 私たちの評価設定は、偏見の特徴の存在下で説明の一貫性をテストすることにより、失敗を特定することができますが、説明が忠実であることを証明することはできません。言い換えれば、私たちは忠実性に対する必要だが十分ではないテストを提示しています。この設定はまた、入力のわずかな変更に対する忠実性のみを評価しており、広範囲の入力にわたるモデルの振る舞いを予測できる説明を求める場合には不十分かもしれません。
結論として、私たちの研究は、思考の連鎖(CoT)プロンプトがLLMの推論能力を向上させるために有望である一方で、系統的に不忠実である可能性があることを示しています。社会的ステレオタイプ、常にAが答え、提案された回答という3つの異なるバイアス、二つのプロンプト設定(ゼロショットと少数ショット)、二つのモデル(Claude 1.0とGPT-3.5)で系統的な不忠実性を見出しました。これは、他のバイアス特徴やモデルでも同様の結果が観察されることを示唆しています。これらの結果を受けて、私たちは忠実性を測定し向上させるための標的を絞った取り組みを提唱し、それによってより透明で信頼性の高いAIシステムに向けて作業することができます。