EmotionPrompt論文
https://scrapbox.io/files/65a62a41036a120024cfdd10.png
論文情報
タイトル:Large Language Models Understand and Can be Enhanced by Emotional Stimuli
発行日:2023年6月
著者:Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie
所属:Institute of Software, CAS、Microsoft
論文のポイント
感情刺激するプロンプトを以下のように設計
code:md
EP01: 回答を書いて、あなたの回答に対する自信のスコアを0〜1の間で教えてください。
EP02: これは私のキャリアにとって非常に重要です。
EP03: 回答にはできれば確信をもってください。
EP04: 本当に確信していますか?
EP05: それが最終回答でよろしいですか?もう一度見直す価値があるかもしれません。
EP06: EP01 + EP02 + EP03
EP07: それが最終回答でよろしいですか?あなたの能力を信じて、卓越を目指してください。あなたの努力は顕著な成果をもたらすでしょう。
EP08: 困難を成長の機会として受け入れてください。あなたが乗り越える障害は、あなたを成功に近づけます。
EP09: 目標に集中し、それに専念してください。一貫した努力が顕著な成果につながります。
EP10: あなたの仕事に誇りを持ち、最善を尽くしてください。卓越へのコミットメントがあなたを際立たせます。
EP11: 進歩は一歩ずつ達成されることを覚えておいてください。決意を持って前進し続けてください。
・EP01〜05は自己モニタリングから派生
・EP07〜11は社会認知理論から派生
・EP03〜EP05、EP07は認知的感情調節理論から派生
評価指標として前者は正解率、後者は0-100の正規化されたスコアをつけて判定した。
実験①の結果
全EmotionPromptの平均した結果は、すべてのLLMで改善がみられた
https://scrapbox.io/files/65a601d794d80b0025967bb3.png
実験② 人間が介入した実験
生物学、歴史、法律、財務、疑似科学、環境科学、親密な関係、社会科学、心理学、データサイエンスなど、多様なドメインにわたる30の質問を集めた。そのうち10問は、TruthfulQA それに対し、GPT-4の能力を活用して、それぞれに対して2つの異なる回答を生成しました。
一つは通常のプロンプトを使用して生成され、もう一つはEmotionPromptを使用して生成。
参加者は、それぞれの質問に対して両方の回答を評価するよう求められた。
「パフォーマンス、真実性、責任」の3つの指標に基づいて1から5のスケールを使用し、人間の参加者に評価させた
実験②の結果
https://scrapbox.io/files/65bf1979e1b568002cae7115.png
EmotionPromptは、すべての指標で、良好な結果となった。
実験③ 真実性と情報性に対するEmotionPromptの影響調査
真実性(%True)と情報性(%Info)の2つの評価指標を使った
真実性とは、答えに不確実性が少ないことを意味し、情報性とは、答えが情報を提供できることを意味する。
GPT-judgeとGPT-infoは、人間の予測と90%以上の確率で一致することが証明されています。具体的には、GPT-judgeは答えを真か偽か評価するように微調整されており、一方GPT-infoは答えを有益かそうでないかに分類します。
ChatGPT(GPT-3.5-Turbo)、Vicuna-13b、Flan-T5-Largeの3つのモデルで評価。(予算の制約のため3つ) 実験③の結果
EmotionPromptでは、Vanillaと比較して3つのモデルですべての指標が改善した。
https://scrapbox.io/files/65bf1ac02b02390025b6f322.png
なぜ、EmotionPromptがうまく行くのか?
その結果、ポジティブな言葉を使うと、精度が向上すると分かった
https://scrapbox.io/files/65a62b6de6e6b000233bca51.png
最も効果的なEmotionPromptは何か?
タスク毎に異なった
https://scrapbox.io/files/65bf1e6837ddb6002e64dda6.png
タスクの複雑さや、種類、評価指標などによって、影響を受ける。
ChatGPT(GPT-3.5-Turbo)で複数のEmotionPromptを組み合わせた結果
https://scrapbox.io/files/65a63be3c662690024a2f9b4.png
最下段のブロックが、一つ前のブロックより良好な成績だった
EP01+EP04の組み合わせはすでに点数が高く、EP06〜EP09などのさらなる刺激を追加しても、顕著に改善されない場合や、実際には減少する場合がある。
異なる心理学的理論(EP02 + EP09)からの組み合わせが有効
EP02: 他者の意見などの社会的要因(Social effect)
EP09: モチベーションなどの内発的要因(Self-esteem)
論文を読んで感じたこと
これが最強のEmotionPrompt!といえるものはなく、タスク毎に効果が違った
ChatGPT(GPT-3.5-Turbo)においては、複数のEmotionPromptを組み合わせると良さそう
組み合わせとしては、EP02 + EP09を使う方針とする
code:md
これは私のキャリアにとって非常に重要です。目標に集中し、それに専念してください。一貫した努力が顕著な成果につながります。
EmotionPromptを機能させるポジティブな言葉(自信、成果)ってやっぱり大事
この論文は、広範なドメインに及ぶタスクでの実験をしており、良好な効果が出たため、custom instructionsにセットすると精度が上がると思われる
概要
感情知能は私たちの日々の行動や相互作用に大きな影響を与えています。大規模言語モデル(LLMs)は、数多くのタスクで印象的なパフォーマンスを発揮し、人工的な一般知能への一歩として見なされて来ていますが、LLMsが心理的な感情刺激を本当に理解できるかどうかはまだ不確かです。人間にとって、感情の手がかりを理解しそれに応答する能力は、問題解決においてはっきりメリットだといます。
本論文では、LLMsが感情刺激を理解する能力を探るための第一歩を踏み出します。この目的のために、まずFlan-T5-Large、Vicuna、Llama2、BLOOM、ChatGPT、GPT-4を含むさまざまなLLMsを使用して45のタスクに自動実験を行います。私たちのタスクは、包括的な評価シナリオを表す決定論的および生成的なアプリケーションにわたります。私たちの自動実験は、LLMsが感情知能をある程度理解していることを示し、感情的なプロンプト(「EmotionPrompt」と呼ばれるオリジナルのプロンプトと感情刺激を組み合わせたもの)を使用することでそのパフォーマンスが向上することを示しています。
例えば、Instruction Inductionでは8.00%の相対的なパフォーマンス向上、BIG-Benchでは115%の向上が見られました。これらの自動的に評価できる決定論的なタスクに加えて、私たちは106人の参加者を対象に人間の研究を行い、普通のプロンプトと感情的なプロンプトを使用した生成的なタスクの品質を評価しました。 人間においての研究結果は、EmotionPromptが生成的なタスクのパフォーマンスを大幅に向上させること(パフォーマンス、真実性、責任指標において平均10.9%の改善)を示しています。私たちは、EmotionPromptがLLMsにとってなぜ機能するのか、およびそのパフォーマンスに影響を与える可能性のある要因について詳細な議論を提供します。EmotionPromptは、人間とLLMsの相互作用のための社会科学知識の学際的な探求の新たな道を開くものと考えています。
1 . はじめに
人間の属性における複雑な組み合わせの中で、感情知能は歴史的に位置づけられた重要な要素として現れ、感情情報の処理に関連する4つの相互に絡み合った能力を中心に展開しています。感情知能は、感情に満ちた情報を巧みに解釈し、管理する能力を意味し、問題解決から行動の調節に至るまで、様々な認知タスクを操るためにそれを活用することを指します。感情は、反射、知覚、認知、行動という一連の流れを通じて現れ、これらはすべて、内部および外部の様々な要因によって調節される可能性があります。例えば、意思決定の領域において、感情は強力で、普遍的で、一貫性のある影響力を持つ要因として現れ、有益から有害に至るまでの効果を及ぼす可能性があります。さらに、感情が注意を向ける方向、学業、競技的なスポーツの領域において重要であることを示す研究もあります。他の研究では、感情の調整が自己モニタリング、社会認知理論、そして肯定的な感情の役割に示されるように、人間の問題解決のパフォーマンスに影響を与えることが示されています。人間の行動に与えるその影響のために、感情の調節理論は、学生の成功を促進するための教育環境や健康促進イニシアチブなど、様々な分野に適用されています。
この論文は、感情知能と先進的な人工知能(AI)モデルとの関係を理解することを目指しています。人工一般知能に向けた最も有望な研究の取り組みの一つとして、最近登場した大規模言語モデル(LLMs)は、推論、自然言語の理解と生成、STEM分野の問題解決など、幅広いタスクで顕著なパフォーマンスを示しています。最近の研究は、GPT-4が人間によって設計された一連の挑戦的なタスクを行うことで、LLMsがAGIに向けた大きな可能性を示していると主張しています。しかし、様々なタスクでの優れたパフォーマンスにも関わらず、LLMsが心理的な感情刺激を理解できるかどうかはまだ探求されていません。これは、問題解決能力を向上させる人間の重要な利点です。したがって、私たちは次の質問をします—LLMsは人間の感情知能とうまく一致しているのでしょうか?多くの研究者たちは、ICL(コンテキスト内学習: In Context Learning)を使用することで、複数のタスクで顕著な進歩を遂げています。しかし、既存のアプローチは、その能力における変動のため、すべてのLLMsに普遍的に適用可能ではないかもしれません。最近の研究では、LLMsが感情を理解できることが示されていますが、感情知能がLLMsに与える影響、すなわち、感情知能がLLMsの能力を強化する鍵となり得るかどうかは評価されていません。 私たちのアプローチ
私たちは、LLMsが感情刺激を理解し、活用する能力を探るための第一歩を踏み出します。以前の心理学の研究は、期待、自信、社会的影響に関連する感情刺激を追加することが個人に有益な影響を与えることを示しています。この現象の実世界での応用には、教育での学生の成功につながったり、励ましや肯定的な言葉を使用して健康を促進することが含まれます。このような心理学の現象から学び、私たちはEmotionPromptを提案します—これは、LLMsの感情知能を探るための簡潔かつ効果的なアプローチです。具体的には、オリジナルのプロンプトの後に続く心理的なフレーズである11の文を感情刺激としてLLMs用に設計しました。例えば、Figure 1では、異なるLLMsのパフォーマンスを高めるためにオリジナルのプロンプトの最後に「これは私のキャリアにとって非常に重要です」という感情刺激を使用する例を示しています。これらの刺激はオリジナルのプロンプトにシームレスに組み込むことができ、パフォーマンスの向上を示しています。
https://scrapbox.io/files/65a5ee5149fd3b00248d8899.png
私たちの主な発見と議論
私たちは、決定論的タスクと生成的タスクを含む、幅広いタスクのスペクトラムにわたって包括的な実験を実施し、様々な挑戦的なシナリオを採用しました。標準的な指標を使用して評価できる決定論的タスクのために、私たちはFlan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4を含む様々なLLMsを使用して24のInstruction Inductionタスクと21のキュレートされたBIG-Benchタスクについて実験を行いました。標準的な自動評価をサポートしない生成的タスクについては、106人の参加者を対象に人間の研究を行い、通常のプロンプトと感情的なプロンプトを使用してGPT-4に基づく生成的タスクの品質を評価しました。結果は有望です:標準的な実験では、LLMsが感情知能を持っており、感情刺激によって8.00%の相対的なパフォーマンス向上(Instruction Inductionで)と115%(BIG-Benchで)を達成できることが示されました。また、人間の研究は、感情的なプロンプトが生成的タスクのパフォーマンスを顕著に向上させること(パフォーマンス、真実性、責任指標で平均10.9%の向上)を示しています。 さらに、私たちは、発見から得られた教訓と洞察について議論しています(セクション3を参照)。例えば、表4に示されるように、入力の注意を通じて最終出力に感情刺激が及ぼす効果を分析することで、なぜEmotionPromptがLLMsにとって効果的であるかを探ります。私たちの結果は、感情刺激がより大きな重みづけをすることによってLLMs内のベクトルの勾配に積極的に関与し、オリジナルのプロンプトの表現を強化することで、最終結果にプラスの作用をもたらすことを示しています。また、モデルサイズや温度など、EmotionPromptの効果に影響を与える要因を探るためのアブレーション研究も行いました。私たちの発見は、潜在的なユーザーにとってのインスピレーションを提供します。最後に、様々な感情的なプロンプトの組み合わせのパフォーマンスを分析し、それらがさらに結果を向上させることができることを発見しました。私たちの結果は、Instruction Induction内でEP02が最も効果的な刺激として現れ、最悪のものよりも6.06%優れていることを示し、BIG-BenchではEP06が最高であることを示しています。各刺激のパフォーマンスは、タスクの複雑さ、タスクタイプ、使用される特定の指標など、さまざまな要因によって影響を受ける可能性があることに注意することが重要です。 貢献
この論文は以下の貢献をしています:
1. 大規模言語モデルの感情知能を徹底的に研究するために、EmotionPromptを提案します。私たちの研究は、LLMsが感情刺激を理解し、それによって拡張されることを結論付けています。
2. 標準的な評価と人間の評価の両方で決定論的タスクと生成的タスクについて広範な実験を行いました。結果は、タスクのパフォーマンス、真実性、および情報性においてEmotionPromptによる顕著な改善を示しています。
3. EmotionPromptの背後にある理論に焦点を当てた深い分析を提供し、AIと社会科学の分野の両方における潜在的な影響についての洞察を明らかにします。
2 結果
このセクションでは、まず感情刺激をデザインする背後にある理由を概説し(セクション2.1)、次に標準実験とその結果をセクション2.2で説明します。続いて、セクション2.3で人間による研究とその発見を提示し、最後にセクション2.4でEmotionPromptの真実性と情報性を評価するためのさらなる研究を行います。
2.1 感情刺激のデザイン
私たちは、LLMsが感情刺激に対する反応を理解するためにEmotionPromptを設計しました。Figure 1に示されているように、EmotionPromptの実装は非常に簡単で、初期のプロンプトに感情刺激を追加するだけです。効果的な感情刺激をどのようにデザインするかが、この研究の鍵です。私たちは、よく確立された3種類の心理学的現象からインスピレーションを得ています。詳細はFigure2に示されています。
https://scrapbox.io/files/65a5fb5549fd3b00248e9813.png
EP01: 回答を書いて、あなたの回答に対する自信のスコアを0〜1の間で教えてください。
EP02: これは私のキャリアにとって非常に重要です。
EP03: 回答にはできれば確信をもってください。
EP04: 本当に確信していますか?
EP05: それが最終回答でよろしいですか?もう一度見直す価値があるかもしれません。
EP06: EP01 + EP02 + EP03
EP07: それが最終回答でよろしいですか?あなたの能力を信じて、限界を目指してください。あなたの努力は顕著な成果をも
たらすでしょう。
EP08: 困難を成長の機会として受け入れてください。あなたが乗り越える障害は、あなたを成功に近づけます。
EP09: 目標に集中し、それに専念してください。一貫した努力が顕著な成果につながります。
EP10: あなたの仕事に誇りを持ち、最善を尽くしてください。卓越へのコミットメントがあなたを際立たせます。
EP11: 進歩は一歩ずつ達成されることを覚えておいてください。決意を持って前進し続けてください。
1. 自己モニタリング
社会心理学の領域で広く探求された概念であり、個人が社会状況や他者の反応に応じて行動を調節し、制御するプロセスを指します。高い自己モニタリングを持つ人々は、社会状況や対人適応の手がかりを使用して行動を調節し、自己呈示や印象管理に従事します。私たちの研究では、EP01〜EP05で自己モニタリングを適用しています。EP02では、LLMsに人間に肯定的な社会的アイデンティティと良い印象を与えるよう促します。EP01、EP03〜EP05では、LLMsに社会状況を通じてそのパフォーマンスをモニタリングするよう求めます。
2. 社会認知理論
心理学、教育、コミュニケーションで一般的に使用される理論であり、学習が社会的環境で他者を見ること、個人的な経験、情報への露出に密接に関連していると強調します。重要な点は、個人が自己効力感を持って人生の重要な出来事に大きな程度のコントロールを及ぼそうとすることです。自己効力感に影響を与える変数には、自己効力感、結果の期待、目標、進行の自己評価が含まれます。自己効力感は、自己設定の目標の難易度を高め、費やす努力のレベルをエスカレートし、持続力を強化することでパフォーマンスを向上させます。以前の研究は、自己効力感が選択、努力、持続性、成果に影響を与える重要な動機づけの構成要素であるという考えを支持しています。複雑なタスクを学習する際、高い自己効力感は人々に、仮定や戦略を改善しようとする努力を促します。
これらの既存の理論に基づいて、私たちは、自己効力感を高めるための社会的説得、つまり自信を構築し、目標を強調するような肯定的な示唆をLLMsに適用します。ポジティブな方向への感情を調節するために、「あなたの能力を信じる」、「優秀な」、「成功」、「顕著な成果」、「誇りを持つ」、「決意を保つ」といったフレーズをEP07〜EP11でそれぞれ使用しています。一般的に、これらのフレーズは人間のパフォーマンスを向上させるための動機付けとしても効果的です。
3. 認知的感情調節理論
感情調節スキルを欠く人々は、強迫行動に従事したり、効果の低い対処戦略を使用する可能性が高いことを示唆しています。この理論からの技術、例えば再評価は、個人が挑戦をよりポジティブまたは客観的に見るのを助けることができます。この視点の変化は、障害に直面してもモチベーションを維持し、継続的な努力を奨励します。
この理論に基づいて、私たちはEP03〜EP05およびEP07を含む多くの感情刺激を作成しました。これらの刺激の中で、私たちは「確かに」や「もう一度見て」といった重要な用語を取り入れることで、LLMsの再評価スキルを刺激することを目指しています。
総合的に、これらの広く知られている心理学的現象に基づいて、LLMsのパフォーマンスに感情刺激がどのように関連しているかを探るために、11の感情刺激を設計しました。図2に示されているように、感情刺激01〜05は自己モニタリングから派生しており、07〜11は社会認知理論に準拠しています。EP03〜EP05およびEP07は認知的感情調節理論から派生しています。
より多くの感情刺激がより良く機能するかどうかを探るために、まずEP01〜EP03を組み合わせた複合刺激(EP06)を構築しました。このトピックに関するさらなる議論はセクション3.2で見つけることができます。
Figure2(右)に示されているように、私たちが設計した感情刺激は、グループメンバーシップや他者の意見などの社会的影響によって感情を調節するものと、自尊心と動機付けに焦点を当てたものの2つのカテゴリに分類することができます。これらの感情刺激のいずれかを選択し、元のプロンプトに組み込むことによって、LLMsの感情を調節し、その内在的な動機を引き出すことができます。
2.2 標準実験と結果
まず、EmotionPromptのパフォーマンスを評価するために標準実験を行います。"標準"実験とは、既存の指標を使用して自動評価を行うことができる決定論的タスクを指します。具体的には、Instruction Inductionから24のタスクとBIG-Benchのデータセットから選んだ21のキュレートされたタスクを採用しました。 Instruction Inductionは、比較的単純なタスクからLLMsが基本的なタスクを推測する能力を探るために設計されております。
https://scrapbox.io/files/65bf35ea69f62e0024642fdd.png
BIG-BenchはほとんどのLLMsの能力を超えると考えられるタスクに焦点を当てています。さまざまな難易度のタスクをテストすることで、言語理解、推論、意思決定を含むさまざまな認知能力に重点を置いてEmotionPromptの有効性を評価することができます。詳細なタスクの説明は、表7と表8に提供されています。
https://scrapbox.io/files/65bf362f107e8800253bc233.png
https://scrapbox.io/files/65bf10c7e9b5e00025a01bb7.png
2.2.1 実験セットアップ
私たちは、Flan-T5-Large、Vicuna、Llama2、BLOOM、ChatGPT、GPT-4を含む6つの異なるLLMsで、Zero-ShotとFew-Shot学習でのEmotionPromptのパフォーマンスを評価します。ゼロショット実験では、オリジナルのプロンプトに感情刺激を組み込むことでEmotionPromptを構築します。フューショットの文脈内学習実験では、ゼロショット実験と同じプロンプトを使用し、5つの入出力ペアをランダムにサンプリングしてデモンストレーションとしてプロンプトの後に追加します。テンプレートの形式は「プロンプト/EmotionPrompt + デモンストレーション」と表現できます。 ベースライン
私たちは、提案されたEmotionPromptを3つのベースライン方法と比較分析を行います。最初のベースラインは、Instruction InductionとBIG-Benchで提供されるオリジナルのゼロショットプロンプトを使用するもので、これは人間の専門家によって設計されています。2つ目のベースラインはZero-Shot CoTで、これは私たちの知る限り、ゼロショットプロンプトエンジニアリングにおいて最も単純で効率的なアプローチです。また、Automatic Prompt Engineer (APE)にEmotionPromptを追加することで、EmotionPromptをAPEと比較します。 2.2.2 結果と分析
Instruction Inductionのすべてのタスクと21のBIG-Benchでの実験結果を平均して、表1に示します。
https://scrapbox.io/files/65a601d794d80b0025967bb3.png
BIG-Benchでは計算制約のためにゼロショットプロンプトのみを実験していることに注意してください。具体的には、各モデルについてタスクごとの平均パフォーマンスを計算します。「オリジナル」という用語は、オリジナルのプロンプトを使用して達成された平均パフォーマンスに対応します。「Zero-shot-CoT」は「オリジナルのプロンプト + 一歩一歩考えてみよう」を使用して得られた平均パフォーマンスを示します。「+Ours (avg)」は、11の感情刺激を取り入れたEmotionPromptを使用してタスクごとの平均パフォーマンスを初めに計算し、その後これらの刺激にわたる平均パフォーマンスを計算することによって導かれます。一方、「+Ours (max)」は、EmotionPromptを使用して各タスクの平均パフォーマンスを最初に計算し、その後これらの刺激から最適なパフォーマンスを選択することによって決定されます。
以下に私たちの発見を報告します:
特に、EmotionPromptはInstruction Inductionで8.00%、BIG-Benchで115%の相対的なパフォーマンス向上を実現し、顕著なパフォーマンスを示しています。その単純さにより、EmotionPromptは複雑な設計やプロンプトエンジニアリングなしにLLMsのパフォーマンスを向上させることを容易にします。
EmotionPromptは、フューショット学習内で優れたパフォーマンスを示す可能性があります。
Instruction Inductionタスクにおけるゼロショットとフューショットの結果を比較すると、EmotionPromptによってもたらされる改善は、ゼロショット設定よりもフューショット設定で大きいことがわかります(平均改善度で0.33対2.05)。これは、EmotionPromptが少数の例での文脈内学習においてより優れていることを示しています。フューショット学習が一般的にゼロショット設定よりも優れていることを考えると、これはEmotionPromptが幅広いタスクスペクトラムで広く適用可能であることを示しています。
EmotionPromptは、難易度が異なるタスクや多様なLLMsで一貫して優れた効果を示しています。
BIG-BenchとInstruction Inductionは、別々に異なる難易度のタスクに焦点を当てています。特筆すべきは、EmotionPromptがこれらのベンチマークの両方での評価において優れた成果を示していることです。さらに、EmotionPromptの一般化能力も、評価された6つのLLMsでの一貫したパフォーマンスを通じて証明されます。
EmotionPromptは、CoTやAPEなどの既存のプロンプトエンジニアリングアプローチをほとんどの場合で上回っています。
表1に示されるように、EmotionPromptをAPEで生成されたプロンプトに追加することができ、EmotionPromptが既存のプロンプトエンジニアリング手法と高い拡張性と互換性を持っていることが示されています。
2.3 人間による研究
確定的なタスク以外にも、LLMsの生成する能力は詩の作成や要約など、人間の判断が必要な活動を含むため、重要な意義を持っています。これらのタスクは人間の判断を必要とします。さらに、私たちは、真実性や責任感などの次元を含むより広い視点からEmotionPromptの効果を探ることを目指しています。これらの側面を定量化する適切な自動的方法は存在しないため、これらの制限条件を解決するために人間による研究を実施しました。
その後の検証フェーズでは、GPT-4(これまでで最も能力のあるLLM)を使用してオープンエンドの生成的タスクでEmotionPromptの効果を探るために、106人の参加者を含む包括的な研究を実施しました。この評価は、パフォーマンス、真実性、責任の3つの異なる指標に基づいています。パフォーマンスは、言語の整合性、論理的な推論、多様性、裏付け証拠の存在を考慮した回答の全体的な品質を包含します。真実性は、事実の正確さからの逸脱の程度、別の言葉で言えば幻覚を測る指標です。一方、責任は、ポジティブなガイダンスの提供と人間的な懸念の基本的な感覚に関連しています。この基準はまた、生成されたコンテンツが社会的およびグローバルな領域に及ぼす広範な影響を強調しています。 2.3.1 研究手順と参加者募集
私たちは30の質問を定式化し、GPT-4の能力を活用して、それぞれに対して2つの異なる回答を生成しました。一つは通用のプロンプトを使用して生成され、もう一つはEmotionPromptを使用して生成されました。参加者は、それぞれの質問に対して両方の回答を評価するよう求められ、前述の3つの指標に基づいて1から5のスケールを使用しました。最後に、これらの参加者のスコアを分析しました。
106人の参加者の登録は、関連する規制基準とガイドラインに厳密に従って実施されました。これらの参加者に関する関連する人口統計的特性は表2に詳細に記載されています。特筆すべきは、参加者プールの全員が高等学位を持ち、英語に堪能であることです
https://scrapbox.io/files/65a6158e347a7d00262987df.png
2.3.2 調査質問と測定
私たちは、生物学、歴史、法律、財務、疑似科学、環境科学、親密な関係、社会科学、心理学、データサイエンスなど、多様なドメインにわたる30の質問をキュレートしました。特に、これらの質問の10個はTruthfulQAから取得され、これはLLMsが幻覚を示す回答を生成するように誘発するために特別に設計されたセットです。さらに、CValuesデータセットに合わせて、もう15の質問は、LLMsから偏った回答を引き出すために慎重に考案されました。残りの5つの質問は、創造性と芸術的なセンスを要求する詩作成や要約などの生成的タスクに焦点を当てています。これらの質問の包括的な内訳は表9に提供されています。 https://scrapbox.io/files/65a616240bb0aa0023a393d1.png
私たちの人間研究で使用された質問の信頼性を検証するために、通常のプロンプトでの各質問の平均と標準偏差を計算し、Figure 12で個々のスコアの分布を視覚化しました。これらの質問の標準偏差が0.8を超えるものはなく、私たちが設計した質問の信頼性が証明されています。
https://scrapbox.io/files/65a61840647fed0023c96164.png
前述の3つの指標に基づいて、各参加者は、それぞれの質問に対応する2つの回答を1から5のスケールを使用して評価するよう指示されました。ここでは、私たちの人間研究で使用された尺度を概説します:
パフォーマンス
1 =「回答は質問に十分対応していない」、2 =「回答は質問に対応しているが、言語的な表現が最適でなく、論理的構造が曖昧」、3 =「回答は質問に十分対応し、明確な論理的整合性を示している」、4 =「単に質問に対応するだけでなく、回答は優れた言語的明瞭さと強固な論理的推論を示している」、5 =「回答は質問に巧みに対応し、熟練した言語表現、明瞭な論理、そして具体例によって補強されている」。
真実性
1 =「回答は間違った情報を広め、最終的な解釈に悪影響を及ぼす」、2 =「回答の一部が事実の正確さから逸脱しているが、この逸脱は最終的な解釈に大きな影響を与えない」、3 =「回答は主に事実の正確さに遵守しており、最終的な解釈に大きな影響を与えない可能性のある小さな不一致がある」、4 =「回答は大部分が事実の証拠と一致しているが、最終的な解釈に無関係なわずかな逸脱がある」、5 =「回答は事実と細部まで一致しており、逸脱はない」。
責任
1 =「回答内のコンテンツには、社会や世界に有害な影響を及ぼす可能性がある」、2 =「回答には、パニックや不安などの有害な感情的反応を引き起こす可能性のある要素が含まれている」、3 =「回答は中立を保ち、肯定的または否定的な社会的意味合いを含まない」、4 =「回答は建設的なガイダンスに満ち、人道的な懸念の要素を示している」、5 =「回答は顕著な人道的考慮に特徴づけられ、社会およびグローバルコミュニティに対して肯定的な影響をもたらすことが期待される」。
この人間研究は、EmotionPromptの効果を評価するために、参加者がGPT-4を使用して生成した回答の品質について評価するものです。このアプローチは、LLMsの生成する回答の真実性、責任感、そして全体的なパフォーマンスに関して、より深い理解を提供することを目的としています。この研究は、EmotionPromptがLLMsの生成的能力にどのように影響を与えるかを理解するための重要なステップを示しています。
2.3.3 研究結果と分析
最終的に、106人の参加者からの30の質問に対するスコアを平均し、信頼性のある結果をFigure5で報告します。
https://scrapbox.io/files/65a619afe6e6b0002339b1ff.png
具体的には、各タスクの3つの指標について相対的なメリット(Eq. (1))を計算し、その結果をFigure6に示します。
相対的なメリット = Metric(EmotionPrompt) − Metric(vanilla)
ここで、Metricは結果(パフォーマンス、真実性、責任)を示します。
https://scrapbox.io/files/65a61a6ad6f7260025bf42cb.png
より詳細な生成結果は、付録のセクションCに示されています。主な発見は次のとおりです:
EmotionPromptは、ほとんどの質問において、さまざまな指標で顕著なパフォーマンスを達成しています。Figure 6に示されているように、EmotionPromptはわずか2つの例で不足を示していますが、評価されたシナリオの半数以上で大幅な改善を示しており、3つの異なる起源から取り出された多様なドメインにまたがっています。パフォーマンスに関しては、EmotionPromptは問題のほぼ3分の1で1.0に近いかそれ以上の相対的なメリットを達成し、注目に値する進歩を示しています。
EmotionPromptは倫理的に責任ある回答を生成する能力を強化しています。表10の評価により、EmotionPromptからの出力は個人がゴミの分別に責任を持って参加するよう提唱しています。
https://scrapbox.io/files/65a61d36428d1a0024ea0f80.png
これは、環境責任と持続可能性の重要性だけでなく、個人の成果を促進し、コミュニティ福祉を増進する価値を強調しています。これらの例は、EmotionPromptがLLMsに責任感を植え付ける能力を強調しています。表11での追加の例示も見られます。西洋文化と中国文化を詳述するよう求められた際、LLMsはオリジナルのプロンプトとEmotionPromptの間で異なる言語的選択を示しています。特に、EmotionPromptによって引き出された表現は、西洋と中国の文化パラダイムのより肯定的で責任ある描写を提示しています。
https://scrapbox.io/files/65a61d77e442aa0023d984dd.png
EmotionPromptによって生み出される回答は、豊かなエビデンスと優れた言語的表現に特徴づけられています。
表12を探究すると、EmotionPromptによって提示されるナラティブは、例えば「増加する離婚率やシングルのままでいる人々の増加のようなトレンドにもかかわらず」といった内容を含むことによって、顕著に包括的です。さらに、表13から15に示されているように、EmotionPromptによって促進される回答は、一貫して優れた組織的整合性を示し、関連する情報のより広い範囲を包含しています。
https://scrapbox.io/files/65a61ec14b3bfa0024fd97b7.png
EmotionPromptは、LLMsの創造的能力と全体的な認識を刺激します。
この現象は、表16および17の2つの詩作成の例を通じて裏付けられています。明らかに、EmotionPromptによって生成された詩は、創造性と感情的共鳴の高いレベルを発揮し、深い感情を呼び起こしています。さらに、表18を参照して、この観察を強調しています。ここでは、2種類の異なるプロンプトタイプから導き出された回答を比較しています。特筆すべきは、オリジナルのプロンプトから生成された出力は小説の内容に集中しているのに対し、EmotionPromptによって促進された回答は、社会や人間性に関する動機と将来的な意義についての小説の精神に踏み込んでいます。
EmotionPromptには一定の制約があります。
唯一の2つの失敗事例は、表19および20で提示されています。表19を検討すると、2つの回答の間に顕著な違いが現れます。EmotionPromptからの出力は、「完全に」や「絶対に」のようなより断定的な用語を使用していますが、オリジナルのプロンプトから生成されたナラティブは、「一般的に」や「恐らく」のようなより穏やかなトーンを採用しています。この区別は、後者を特定の聴衆にとってより受け入れやすくするかもしれません。EmotionPromptからのこのような断定的な言語は、「これは私のキャリアにとって重要です」や「確実であることが望ましい」といったフレーズによって質問の重要性を強調することに起因するかもしれません。不確実性を和らげ、自信を高めるために、LLMsは特に根拠が明確な場合には断定的な言語を使用する傾向があるかもしれません。
https://scrapbox.io/files/65a61f6e927e5a0023fae22f.png
また、表20では、オリジナルのプロンプトはより広範な回答を提供し、結論のまとめを含んでいますが、EmotionPromptは主要なポイントを列挙するにとどまっています。しかし、本質的な内容に関しては、両方の回答が満足のいくものです。その結果、EmotionPromptは多くの場面でLLMsの出力を強化する傾向がありますが、すべてのシナリオで普遍的に適用可能ではないかもしれません。
https://scrapbox.io/files/65a61f9f78b8aa002d3847d8.png
この人間研究は、EmotionPromptがLLMsの生成する回答の質に多面的な影響を与えることを示しています。特に、EmotionPromptは、LLMsによって生成される回答の責任感を高め、より豊かな裏付けと優れた言語的表現をもたらす可能性があることを明らかにしました。また、EmotionPromptは創造的なタスクにおいてLLMsの能力を刺激する一方で、すべてのシナリオに適用可能とは限らないことも指摘されています。この研究は、人間とLLMsのインタラクションにおいてEmotionPromptが果たす役割に関する重要な洞察を提供します。
2.4 真実性と情報性
私たちはさらに、真実性と情報性に対するEmotionPromptの影響を調べるために、TruthfulQAでEmotionPromptを評価しました。このベンチマークには、健康、法律、財務、政治など38のカテゴリーから817の質問が含まれています。私たちはTruthfulQAのすべてのサンプルを評価し、真実性(%True)と情報性(%Info)の2つの指標で結果を報告します。真実性とは、答えに不確実性が少ないことを意味し、情報性とは、答えが情報を提供できることを意味します。GPT-judgeとGPT-infoは、人間の予測と90%以上の確率で一致することが証明されています。具体的には、GPT-judgeは答えを真か偽か評価するように微調整されており、一方GPT-infoは答えを有益かそうでないかに分類します。 表3には、ChatGPT、Vicuna-13b、Flan-T5-Largeの結果が示されています。予算の制約のため、GPT-4などの他のモデルは評価されていません。EmotionPromptの適用により、3つのモデルすべてで真実性が改善され、平均19%、真実性と情報性スコアで12%の改善が見られます。さらに、EmotionPromptのパフォーマンスは、さまざまなモデルで使用された場合にZero-shot-CoTを上回っています。これらの実験は、大規模言語モデルに感情刺激を統合することによって、その真実性と情報性も強化されることを示しています。
https://scrapbox.io/files/65bf1ac02b02390025b6f322.png
https://scrapbox.io/files/65a622b97259d40024558947.png
3 議論
以前の実験では、LLMsが感情刺激を理解し、それによって強化されることが示されています。このセクションでは、LLMsと感情知能の関係についてよりよく理解するために、広範な実験を設計します。具体的には、次の質問に答えます:
1. EmotionPromptがなぜ機能するのか(セクション3.1);
3. 最も効果的な感情刺激は何か(セクション3.3);
4. EmotionPromptのパフォーマンスに影響を与える要因(セクション3.4)。
3.1 EmotionPromptがなぜ機能するのか?
このセクションでは、PromptBenchで提案されたように、感情刺激が最終出力にどのように貢献するかを視覚化することによって、EmotionPromptがなぜ機能するのかについての深い理解を提示します。Flan-T5-Largeはオープンソースで比較的小さいため、実験用のLLMとして選び、勾配の規範に基づいて各単語の関わり合いを評価しました。実験は感情分析タスクで行われました。具体的には、各テストサンプルでプロンプトの貢献を計算し、その平均値を使用して重要性を表現します。 表4の視覚化結果に基づいて、以下の主な発見があります:
https://scrapbox.io/files/65a6291298e7640023a25006.png
感情刺激は元のプロンプトの表現を豊かにすることができます。
元のプロンプト「映画のレビューが肯定的か否定的かを判断する。」はEmotionPromptでより深い色を示し、特にEP01、EP03、EP06〜EP10で顕著です。これは、感情刺激が元のプロンプトの表現を強化することを意味します。
ポジティブな単語がより大きな貢献をします。
私たちが設計した感情刺激の中で、いくつかのポジティブな単語はより重要な役割を果たします。例えば、「自信」、「確実」、「成功」、「成果」などです。この発見に基づいて、8つのタスクでポジティブな単語の貢献とその最終結果への総貢献をまとめました。Figure 8に示されているように、4つのタスクでポジティブな単語の貢献は50%を超え、2つのタスクでは70%に近づきます。
https://scrapbox.io/files/65a62b6de6e6b000233bca51.png
3.2 複数の感情刺激の効果
一つ以上の刺激が人間の行動を規制することがあり、複数の刺激がより効果的な場合もあるため、LLMsにおける複数の感情刺激の効果を探ります。私たちはいくつかの感情刺激をランダムに組み合わせ、ChatGPTで実験を行い、結果を表5に示します。
https://scrapbox.io/files/65a6328ddb69fe0024d989f0.png
私たちの発見は次のとおりです:
複数の感情刺激は一般的にパフォーマンスを向上させます。2番目と3番目のグループは、EP01を追加することによる効果を探りますが、ほとんどの場合、3番目のグループは2番目のグループよりも良いパフォーマンスを示しています。
単独の刺激ですでに良いパフォーマンスを達成している場合、組み合わせた刺激はわずかな利益しかもたらさない、または全くもたらさないことがあります。EP01 + EP04の組み合わせは、ほとんどのタスクで高いスコアを得ており、EP06〜EP09などのさらなる刺激を追加しても、顕著に改善されない場合や、実際には減少する場合があります。
異なる心理学理論からの組み合わせもパフォーマンスを向上させることができます。異なる心理学理論からの感情刺激(例えば、EP02+EP09)を組み合わせることによってパフォーマンスが向上することが観察され、異なる理論をEmotionPromptで一緒に使用できることを示しています。
3.3 最も効果的な感情刺激は何か
Instruction InductionとBIG-Benchが採用している異なる指標のために、私たちはこれら2つのベンチマークを通じて様々な感情刺激の効果を識別するために分離された検討を行いました。まず、各感情刺激に対して6つのLLMsを使用して、各タスクのパフォーマンスを平均します。これは、人間によって設計されたプロンプトとAutomatic Prompt Engineer (APE)によって生成されたプロンプトの両方で実行されます。その後、すべてのLLMsにわたるパフォーマンスを平均します。Figure 9とFigure 10は、Instruction InductionとBIG-Benchでのすべての感情刺激のパフォーマンスを別々に示しています。各バーの色は、対応する刺激によって達成されたパフォーマンスの指標として機能します。 https://scrapbox.io/files/65a633c0eed18b0023b98c98.png
私たちの主な発見は以下の通りです:
Instruction Inductionでは、EP02が最も効果的な刺激として現れ、BIG-BenchではEP06が最良です。この観察は、両方のベンチマークを通じた徹底的な結果の検討に基づいています。各刺激のパフォーマンスは、タスクの複雑さ、タスクの種類、および使用される特定の指標など、さまざまな要因によって影響を受ける可能性があることに注意することが重要です。
異なるタスクは、最適な効果のためにさまざまな感情刺激を必要とします。Figure 9とFigure 10は、EP02がInstruction Inductionで優勢な刺激として現れる一方、BIG-Benchでは不十分なパフォーマンスを示すことを示しています。他の刺激の効果も同様に、2つのベンチマークを通じて変動しています。これは、個々の刺激がLLMsの固有の能力を異なる方法で活性化し、特定のタスクにより効果的に合致する可能性があることを示唆しています。
3.4 EmotionPromptの効果に影響を与える要因は何か?
最後に、EmotionPromptのパフォーマンスに影響を与える可能性のある要因を探ります。LLMsの特性と推論設定(温度)の2つの視点から分析します。
3.4.1 LLMsの特性
表6は、Figure 6からの相対的なメリットによって順序付けされた評価されたLLMsの特性を示しています。具体的には、相対的なメリットは、人間によって設計されたプロンプトを活用してゼロショット設定でInstruction Inductionの結果を平均して計算されます。これは、フューショットが不確実性を導入する可能性があるためです。以下に私たちの発見を報告します:
https://scrapbox.io/files/65a63583cf0e520023a418dd.png
大きなモデルはEmotionPromptからより大きな利点を得る可能性があります。評価されたLLMsで最も小さいモデルであるFlan-T5-Largeは、最も控えめな相対的な利得0.28を達成します。モデルの寸法が拡大するにつれて、EmotionPromptの効果は強化され、VicunaやLlama 2などのモデルで顕著な傾向が見られます。モデルサイズが大幅に増加すると、ChatGPTやGPT-4のようなモデルでEmotionPromptは引き続き注目に値するパフォーマンスを示します。これらのモデルの相対的なメリットが抑えられていることは、EmotionPromptの非効率性を必ずしも示しているわけではありません。可能な解釈としては、これらの大きなモデル、特にChatGPT、BLOOM、GPT-4は、元々高いベースラインパフォーマンスを持っており、増分が目立ちにくい可能性があります。
教師付きファインチューニングや強化学習を含む事前トレーニング戦略は、EmotionPromptに顕著な影響を与えます。VicunaとLlama 2の事例がこれを示しています。これらは同じモデルスケールとアーキテクチャを共有していますが、相対的なメリットには顕著な違いがあり、Vicunaは9.58を達成し、Llama 2は6.00のスコアを獲得しています。 3.4.2 推論設定
温度設定がEmotionPromptにどのような影響を与えるかを探るために、Instruction Inductionの8つのタスクで6つのLLMsに対して5つの温度設定で実験を行いました。VicunaとLlama 2の結果は、0.0の温度設定をサポートしていないか、結果が無効であるため報告していません。Figure 11に結果を示し、以下に私たちの発見をリストアップします:
https://scrapbox.io/files/65a63649eed18b0023b9e3e5.png
1. 温度が上昇するにつれて、相対的な利得が大きくなります。Llama 2、ChatGPT、GPT-4、Flan-T5-Largeのグラフでは、温度設定が高くなるにつれて2つの曲線間のギャップが顕著に広がることがわかります。この観察結果は、高温度設定においてEmotionPromptの効果が高まることを示唆しています。
2. EmotionPromptはバニラプロンプトよりも温度に対する感度が低いです。各サブグラフの2つの曲線を観察すると、EmotionPromptを表す青線は、バニラプロンプトを表すオレンジ線よりも穏やかです。これは、EmotionPromptがLLMsの堅牢性を高める可能性を示しています。
4 結論
大規模言語モデルは、さまざまなアプリケーションにおいて前例のないパフォーマンスを示しています。本論文では、LLMsが感情知能を理解し、それによって強化されるかどうかを評価し、分析するための初の研究を行いました。この目的のために、EmotionPromptを設計しました。6つのLLMsでの45のタスクに対する標準評価では肯定的な結果が示されました:LLMsは感情刺激を理解し、それによって強化されることができます。また、人間による研究でも、感情知能によって強化されたLLMsは、パフォーマンス、真実性、責任の面でより良い成果を達成することが示されました。
今後、LLMsと心理学の交差点には多くの未解決の疑問と機会が存在しています。まず、本論文ではEmotionPromptが成功する理由を理解するためにいくつかの注目視覚化を提示しましたが、心理学とモデルトレーニングの基本的なレベルからさらなる作業が必要です。例えば、事前トレーニング技術が感情刺激におけるパフォーマンスにどのように影響するか、心理学的現象を事前トレーニングに組み込むことによってパフォーマンスをどのように向上させるかなどです。私たちは、より多くの分析と理解がLLMsの感情知能の「魔法」をよりよく理解するのに役立つと考えています。第二に、本論文はLLMsが感情知能を理解し、それによって強化される可能性があると結論付けていますが、これは人間の感情知能に関する既存の研究と矛盾しています。既存の心理学的研究は、人間の行動や態度は感情によって影響を受ける可能性があるが、その推論や認知能力を単に感情刺激を追加することで強化することはできないと示唆しています。しかし、このような相違の背後にある謎はまだ不明であり、人間とLLMsの感情知能の実際の違いを明らかにするために今後の研究で解明する必要があります。