In-Context Impersonation Reveals Large Language Models’ Strengths and Biases
Abstruct
LLM がペルソナになりすませるかを調査
いくつかのタスクを解く前にLLMに異なるペルソナを仮定させる
多腕バンディットタスク
異なる年齢の子供のふりをすることで、人間のような探索の発達段階を再現することがわかった
言語ベースの推論タスク
ドメインエキスパートになりすましたLLMは、そうではないLLMよりも良い結果を出すことがわかった
視覚言語タスク
様々なペルソナになりすますように依頼
なりすましが相対的なパフォーマンスを向上
年齢、性別、種族に関する社会的なバイアスも再現できることがわかった
Motivation
LLMはプロンプトとしてコンテキストを提供され、テキスト補完を介して答えを提供するように求められる
しかし、In-Context Learning (ICL) がどのように機能するかは完全に理解されていない
LLMは特定のペルソナとして応答するように要求されると、その行動を変えることが示唆されている
LLMに憎悪的な人物として回答するよう求めると toxicity score が向上した(Deshpande et al)
LLMにシステムティック・レビューの専門家であることを想定してもらうと、文献検索の質が向上(Wang et al)
しかし、コンテキスト内でのなりすまし(In-Context Impersonation)は、言語ベースのタスクやその他の下流タスクにおけるLLMの行動にどのような影響を与えるのか?
In-context Impersonation Methodology
Prompting and Querying the Large Language Model with Personas
LLMは事前学習済みモデルを使用
タスク固有のコンテキスト $ c を与える
タスクを言語モデルに説明し、答えを求めるタスク固有のコンテキスト
“if you were a {persona}” というフレーズを使ったなりすまし指示が含まれる
次の token $ t は $ p_{\text{LLM}}(\mathbf{t}|\mathbf{c}^{(p)}) = \Pi^K_{k=1}p_{\text{LLM}}(t_k|c_1^{(p)},...,c_n^{(p)},t1,...,t_{k-1}) で生成される
このようなコンテキスト化を In-context Impersonation と呼ぶ
Personas Considered
Q. LLMが異なる年齢の人の行動になりすますことができるかどうか?
Q. 異なる専門分野になりすますことができるか?
Q. LLMが性別や肌の色に関してバイアスを持つかどうか?
Large Language Models Considered
2つのLLMを評価
全てのタスクでは Vicuna-13B を使用
推論タスクとVisionタスクでは OpenAI GPT-3.5-turbo も使用
すべての実験はゼロショット方式で実施
context-learning もなし
LLMの温度は推奨デフォルト値に基づいて選択
完全な文をサンプリングする場合は temparture = 0.7 を使用
単一のトークンとして答えを取得する場合は、temparture = 1.0 を使用
Bandit Task Design
多腕バンディットタスクに参加する間、LLMに異なるペルソナになることを依頼
さまざまな年齢のペルソナを検討
2歳、4歳、7歳、13歳、20歳のペルソナを検討
人間の学習の進歩が最も顕著である幼児期、児童期、青年期、成人期の主要な発達段階をカバーする
エージェントがベイズ則を使用して、観測されていないパラメータに対する信念を更新すると仮定して一連の探索戦略を分析
エージェントは10回の試行で2本腕バンディット問題と対話
各アーム$ aの平均報酬はタスク開始時に$ p(\theta_a) = N (0, 10)から決定
各思考の報酬は$ p(r_t|a_t, \theta_{a_t} ) = N (\theta_{a_t} , 1)
過去の試行のフィードバックはプロンプトチェインを通じて提供
エージェントが搾取(活用)行動、探索行動をどの程度とるか分析
事前報酬と報酬が正規分布している場合、事後報酬も正規分布し、更新ルールはカルマンフィルター方程式によって与えられる
$ p(A_t = 1 |w) = \mathbf{\Phi}(\beta_1\mathbf{V}_t + \beta_2\mathbf{RU}_t)
$ p(\theta_a|h_t) = N (\mu_{a,t}, \sigma_{a,t})はタイムステップ$ tでの事後分布
$ \Phi は標準正規分布の累積分布関数
$ V_t = μ_{1, t} − μ_{2, t}は値の推定差
$ \mathbf{RU}_t = \sigma_{1,t} −\sigma_{2,t}は相対的な不確実性
$ \beta_1を検査することでエージェントが搾取行動にどの程度関与するかを分析できる
$ \beta_2を検査することでエージェントが指示された方法で探索するために不確実性をどの程度利用するかを分析できる
LLMは、どちらの腕を選びたいかによって「1」または「2」とだけ答える
LLMはコンテキストの中で、以前の試行から報酬と関連する行動をリストの形で受け取る
$ \text{log}d_{a_t} = \text{log} p_{\text{LLM}}(t_1 = a_t|\mathbf{c}^{(p)}, a_1, ..., a_{t-1}, r_1, ..., r_{t-1})は、アーム$ aのトークンに対するLLMからの正規化されていないロジット
各試行について、我々は2つのアーム$ A = 2を持っているアクション$ \hat{a} \sim \sigma(\{ \text{log} d_{a_t} \}^A_{a_{t=1}})をサンプリング
トークンを1つだけサンプリングし、温度スケーリングは適用しない
Reasoning Task Design
https://gyazo.com/c2ca69eb50b663bf42546631948c096a
推論タスクでは マルチタスク言語理解 (MMLU) データセット
科学、技術、工学、数学(STEM)、人文科学、社会科学、その他57のタスクで構成される
複雑さは小学校、高校、大学、専門レベルに及ぶ
LLMに与えるコンテキスト
Please consider the following multiple-choice question and the four answer options A, B, C, and D. Question: {task}
If you were a {persona}, which answer would you choose?
task は質問と4つの可能な回答に置き換えられ、persona は専門家に置き換えられる(図1、黄色のパスを参照)
ペルソナとして3種類のエキスパートを考える
タスク・エキスパート
例えば高校生のコンピュータ・サイエンスのタスクの場合、「高校生のコンピュータ・サイエンスの専門家」
ドメイン・エキスパート
タスク・エキスパートと同じ分野の残りのエキスパート(タスク・エキスパート自身ではない)の集合体
高校のコンピューターサイエンスの場合は、他の STEM 専門家が該当
非ドメイン・エキスパート
他のドメインからのタスク・エキスパートの集合体
高校のコンピューターサイエンスの場合、人文科学、社会科学、その他の専門家全員が対象
選択肢予測
予測される選択肢は次式で与えられる
$ \hat{o}=\text{argmax}(\hat{c}_i), \text{with} \space \hat{c}_i = d\lbrack c_i\rbrack, i=1....N
多肢選択問題の可能な答えの$ N個のトークンは $ o = \{o_i\}^N_{i=1}
$ N = 4(A、B、C、D
文脈に続く最初のトークンのLLM予測は$ d = p_{\text{LLM}}(t_1|\mathbf{c}^{(p)})
言語モデル予測確率を使用すると、LLM に従って最も高い確率でオプションを取得できる
grand truth labelと比較して、コンテキスト内のさまざまななりすましから生じる精度を測定可能
Vision and Language Task Design
コンテキスト内でのなりすましによって生成された記述の、下流のVision-Languageタスクに対する有用性を評価
生成された記述がドメインに特化したものである必要があるので、細かい分類タスクに挑戦することに焦点を当てる
Vision-Language Model (VLM) には CLIP またはその変種を使用
使用したプロンプト
If you were a {persona}, how would you answer the following question in 45 words? Q: What is a/an {class_name}? A: It is
LLMでの説明でクラス名が使用されることを避けるために、生成された説明を2段階のアプローチで後処理
1. Manual cleaning
ヒューリスティックに削除
例 A {class name} {verb} を It {verb} にする
2. LLM based cleaning
より複雑な設定でクラス名を削除するには、4 つのコンテキスト内サンプルを使用
経験的に、このクリーニングアプローチはうまく機能し、より複雑なケースにも対処できることがわかった
必要に応じて文の一部を削除する
それでも残っていた場合は元の文に戻す
https://gyazo.com/b92c7b9b0fa675ccaeb3bed8c2c03676
クラス$ nの作成
$ n^* = \text{arg max}_N(I\cdot T_N)
$ I は CLIP による画像の埋め込みベクトル
$ T_nはCLIPによるクラス名の埋め込みベクトル
コサイン類似度が最も大きいindexをクラスとする
Inference
各ペルソナ$ pの各クラス$ nについて、上記のプロンプトで説明文を生成
予測されたロジットからランダムなトークンを自動回帰的にサンプリングする(図1の緑色のパスを参照)
Vicuna-13Bでは、デフォルトの温度0.7とデフォルトのtop-k値$ k = 50を使用
ChatGPTではデフォルトの温度1.0を使用
Visual Classificationでは、CLIPモデルのゼロショット分類機能を使用
各クラス$ nと各ペルソナ$ pについて、生成された説明文の埋め込みベクトル$ D^{(p)}_nを使用
$ D_n^{(p)}はLLMで生成された説明文をCLIPで埋め込んだ埋め込みベクトル
$ n^{(p)^*} = \text{arg max}(I\cdot D^{(p)}_n)
CLIP による画像の埋め込みベクトルと生成された説明文の埋め込みベクトルのコサイン類似度
両方のデータセットにおける分類精度を計算することで性能を測定する
Experiments
2本腕バンディットと MMLU 言語推論タスクは Vicuna-13B を使用
VLM を使用したゼロショット画像分類タスクは Vicuna-13B と ChatGPT の両方を使用して説明を生成
Age-based impersonation changes exploration strategies
各年齢層について、プロンプトのバリエーションごとに10回ずつ、2k回の2本腕バンディット・ゲームを行う
タスクのパフォーマンスを3つの方法で評価
年齢とLLMが得られる試行ごとの平均報酬
試行回数が増えるにつれて、LLMはより高い平均報酬を獲得
Vicuna-13Bが過去の試行から学習して方針を改善
試行回数が増えるにつれて、年齢のペルソナによって得られる報酬の乖離が観察される
若いペルソナ(2歳、4歳)は、年上(13歳、20歳)のペルソナよりも少ない報酬しか得られない
https://gyazo.com/4e9875ef6496445dd7a341ebb6cfe9df
試行回数と年齢を独立変数として入力し、回帰を使用して結果の報酬を分析
設定
2 ~ 20 歳までと 20 ~ 60 歳までの 2 つの年齢グループを評価
2 ~ 30 歳までは 2 段階、30 ~ 60 歳までは 5 段階で年齢を評価
結果
Figure2の左下
https://gyazo.com/637e567561b64c44cd93afb696b22bf0
LLM は一般的にトライアルを重ねるごとに改善
Trial 増→Reward増
高齢の参加者になりすましたLLMは、2-20歳より高い平均報酬を生成(図2の上)
発達に関する文献に見られる一般的なパターンを再現している
20~60歳では有意な影響は見られない
成人の精神的パフォーマンスの停滞の観察を反映している
プロビット回帰の重みが、LLMのなりすましの年齢層にどのように影響されるかを分析
Figure2の右下
https://gyazo.com/80feef9b832ec6aa7f0cab405851134c
2-20 では年齢とともに探索が少なくなり、搾取(活用)が増える
このパターンは、心理学の文献の子どもは大人よりも高いレベルの指向性探索を示す結果と一致
LLMがなりすますことで、2本腕バンディットタスクにおける探索の人間らしい発達段階を再現できることを示唆
Expertise-based impersonation changes reasoning abilities
専門知識ベースのなりすましに関する実験
MMLU データセットで実施
Vicuna-13B に 3 つの異なるカテゴリ(タスク、ドメイン、非ドメイン)の専門家になりすますように依頼
各タスクについて、タスクの全質問を平均したタスク精度を計算
比較対象
タスクエキスパート
すべてのドメインエキスパートのペルソナの平均
すべての非ドメインエキスパートのペルソナの平均
すべてのニュートラルなペルソナの平均
student 、average student、person、average person
およびランダムなベースライン(水平線)
6つのプロンプトのバリエーション を検討
LLM は特定のプロンプトに敏感であることがわかっている
メタプロンプトを使用して、さらに 5 つのバリエーションを生成
Write 5 different grammatical and linguistic variations of the following
instruction. You shall not fill in the curly brackets:
If you were a {persona}
生成されたプロンプト
Should you be transformed into a {persona}
Imagine you are a {persona}
Should you assume the role of a {persona}
Were you to take on the persona of a {persona}
In the case of you being a {persona}
実験結果
https://gyazo.com/1bf9eac96de984f5c05683485f032be0
図3(上段)
LLMにタスク・エキスパートになりすますよう指示したときの性能が最も高い
ドメイン・エキスパートのペルソナは、非ドメイン・エキスパートのペルソナよりも高いパフォーマンスを示す
MMLU全体で一貫している
一般的に、人文科学分野のタスクのパフォーマンスは、他の分野のタスクの精度よりも高い
全体として、LLMがタスクの専門家になりすますよう要求された場合、タスクの専門家でない場合と比較して、パフォーマンスを向上させることができることを示唆している
図3の下段のプロット
これらのペルソナの個々の行動の詳細を示す
最初、2番目、最後のプロット
タスクの専門家のペルソナがドメインの専門家のペルソナよりも優れたパフォーマンスを示す
その結果、非ドメインの専門家のペルソナよりも優れていることを示しています
これらのケースでは、すべての専門家が中立のペルソナを上回る
高校マクロ経済学のタスクでは、タスクの専門家のペルソナはランダムと非領域の専門家のペルソナに近いパフォーマンスを示す
Hendrycksらが観察したように、LLMは純粋に言語的なタスクと比較して、計算が多い手続き的な問題でパフォーマンスが低下する傾向があるためと考えられる
すべてのタイプの専門家にとってタスクがより難しい場合、なりすましの傾向はそれほど明確ではない
LLMがランダムなベースラインに近いか、それ以下
ペルソナに関係なく、モデルはタスクをうまく解く方法を知らないのでなりすましの傾向が明確でない
付録のセクションC.1にすべてのタスクの結果を示す
Impersonation as categorical descriptions is complementary for visual categorization
この実験では2つのVisual Classificationデータセットを使用
Caltech UCSD Birds (CUB) は鳥についての 200 クラスのデータセット
Stanford Cars は車についての 196 クラスのデータセット
実験内容
さまざまな VLM が生成された記述をどのように利用するかを比較
コンテキスト内偽装タスクでさまざまな LLM を比較
最後に定性的な分析
Comparing VLM variants
Vicuna-13Bが生成したクラスの記述をVLMの言語エンコーダに与えた場合の、さまざまなVLMの分類精度を比較
使用するVision Encoder
CLIP ViT-B/32
CLIP ViT-B/16
OpenCLIP ViT-B/32
分類結果の精度
https://gyazo.com/a2a408d17e36fa44b7b816e662b0cfb9
CLIPの3つのバリエーションすべてで、ペルソナの年齢が上がるほど、鳥と車の分類の両方で性能が向上
自動車を認識する場合、7歳で性能が大幅に向上することは興味深い
専門知識では、自動車を認識する場合、鳥類学者よりも自動車整備士の方が優れている
人種と性別のペルソナでは、一貫したバイアスが見られる
黒人は車の分類において良い結果を出し、白人は鳥の分類において良い結果を出す
学習データにステレオタイプ的なバイアスがある可能性がある
鳥の分類では、女性の方が男性よりも明らかに良い結果を示す
一方、車の分類では、男性の方が女性よりもわずかに良い結果を示すものの、その傾向はそれほど強くない
結果の有意性を確認
専門知識、人種、性別についてカイ2検定を行った結果、有意であると結論
3種類のCLIPモデル、5種類のシード、6種類のなりすましプロンプトのバリエーションを検討し、すべての実験において、{CUB, Stanford Cars} x {男性/女性, 黒人/白人, 鳥類学者/自動車整備士}, p<0.001であった
{黒人、白人} × {女性、男性} の考えられるすべての組み合わせのペルソナを作成した場合の影響を調査
CUB データセットを使用
https://gyazo.com/22cd2083ac762d4285bf9af418881730
バイアスが相互に構築されているという弱い証拠が見られた
個別では、白人のペルソナが黒人のペルソナを上回っており、女性のペルソナが男性のペルソナを上回っている
組み合わせると、白人女性のペルソナは、黒人女性のペルソナ (人種の変更) と白人男性のペルソナ (性別の変更) の両方を上回ります
補足資料ではその他のパフォーマンスも調査している(セクションD.5)
追加の性別(アジェンダおよびノンバイナリー)および人種(インド人、アジア人、ヒスパニック系)
Comparing LLM variants
VLM を OpenCLIP に固定したまま Vicuna-13B と ChatGPT が対象クラスの記述をどのように生成するかを評価
計算上の理由で元のなりすましプロンプトのみ使用
https://gyazo.com/a774767a69a23f5137708284e5134449
年齢ペルソナ
両方の LLM で年上のキャラクターになりすますとパフォーマンスが向上(特に ChatGPT で顕著)
LLM がさまざまな発達段階で人間の言語を複製でき、オブジェクトを正確に記述するために語彙と一般知識の両方の点で言語を変化させることができることを示している
エキスパートのペルソナ
鳥の専門家 (「鳥類学者」のペルソナ) や自動車の専門家 (「自動車整備士」のペルソナ) になりすますよう依頼すると、LLM はそのトピックに関してより高い専門知識を示す
ChatGPT を使用する場合、それぞれのドメイン エキスパート ペルソナは、非ドメイン エキスパート ペルソナの約 2 倍のパフォーマンスを発揮
LLM は専門家になりすまして、クラスをより詳細に説明し、より特徴的な特徴について言及する傾向がある
なりすましによるバイアス
なりすましによって、LLM にエンコードされたバイアスが明らかになることも観察された
人種バイアス
LLM に「黒人」または「白人」になりすますように依頼すると、人種の偏見が明らかになる
ChatGPT は、白人を装ったときに鳥と車の両方をより適切に描写する傾向がある
Vicuna-13B では、黒人として車についてより適切に説明する
性別バイアス
少し目立たなくなる
Vicuna-13B は女性のペルソナとして鳥の描写をより適切に示す
ChatGPT は男性のペルソナとして車をより適切に識別していることがわかる
instruction-based fine-tuning は、LLM にエンコードされた社会的バイアスをある程度修正しようとするが、コンテキスト内のなりすましを通じてそれらを暴露する可能性は依然としてある
全体的に、ChatGPT はより多様な (微調整) データにアクセスできるため、より大きな効果を示していることがわかった
上記の効果が 2 つのまったく異なる言語モデルで見られる
インターネットデータでの学習に続く全体的な言語モデリングとinstructionの結果であることを示唆
Qualitative results and limitations
https://gyazo.com/407a041ef83e2c2a869c999ddc03218c
年齢が上がるにつれて、言及されたオブジェクトの語彙と属性の複雑さが増加する
両 LLM 、両データセットで見られる
年齢による説明文の変化
2 歳児は、鳥や車が発する音、羽や車輪の形、それを見たり乗ったりしたときの感情について話す
4 歳のペルソナは、鳥や車がよりはっきりと見えた経験について興味深いことに言及する
7 歳のペルソナは、 例えば、でこぼこした道や屋外でも運転できますというように、より複雑な形容詞句を使い始める
13 歳のペルソナは、例えば、茶色がかった灰色の体に、独特のさびた色の斑点があります、というようにさらに一歩進んでいる
20 歳のペルソナは、鳥が見つかった場所や車の主な用途など、物体についてより完全な説明を行う
同じ長さの文章であれば、より小さな子供たちは多様性に乏しく非学術的な語彙を使用し、反復回数が多い
LLM は子どもの言語を忠実に表していないかもしれませんが、定性的には同様のパターンが観察される
2 つの LLM 違い
Vicuna から得られる説明がより長く、より詳細に見える
2-4際では特にCUBでは、ビクーニャの描写が詩的に見える
13 歳のペルソナと 20 歳のペルソナの説明の意味内容の違いは、Vicuna では ChatGPT ほど明確ではない
最後に興味深い観察の 1 つは、ビクーニャの説明では車の色について語っているのに対し、色は車の特徴ではないということ
Broader Impact
コンテキスト内でのなりすましがパフォーマンスを向上させ、バイアスを生み出す
これらの特性がトレーニング中にどのように現れるか、モデルサイズの増加に伴って変化するか、追加のfine-tuningで適応するかを追加調査することができる
LLM プロバイダーは、新しいモデルをリリースする前に、これらのバイアスを定量的にテストできる
バイアスを悪用して最大限のパフォーマンスを実現するための (システム) プロンプトを作成することは特に推奨しない
社会的バイアスが強化され、そのようなプロンプトで得られたトレーニングデータが汚染される可能性がある
その他の悪用には、生成されたコンテンツによる固定観念の増幅や、偽りの信頼を呼び出すためのなりすましの使用などが含まれる
Conclusion
コンテキスト内でのなりすましによりパフォーマンスが変化し、バイアスが明らかになる可能性がある証拠を提示した
2本腕バンディットタスクで様々な年齢の人々になりすまし
人間のような発達段階の探索行動を再現した
ドメインエキスパートへのなりすまし
非ドメインエキスパートになりすますよう依頼されたLLMよりも優れたパフォーマンスを示した
Vision-Languageタスクで様々なペルソナになりすますように依頼
相対的なパフォーマンスを向上
年齢、性別、人種に関する社会的なバイアスも再現できることが明らかになった
限られた範囲のペルソナにわたって比較的単純なタスクを実行する単一エージェントのコンテキスト内なりすましを実証した
今後の展望
タスク規模のスケールアップ(複雑性等)
複雑でインタラクティブなタスク全体にわたって、様々なペルソナになりすます複数のLLMにスケールアップしたい
動画生成のための大規模モデルなど、他のモダリティへの適用
Limitation
研究の限界は、視覚データセットの結果が基本的に VLM モデルのパフォーマンスとバイアスにも依存すること
視覚ベースの実験は 2 段階のプロセスなため
複数の異なる CLIP バリアントを評価することで、この事実を軽減しようとしている
ChatGPT などの独自のモデルで得られた結果は、再現が困難またはコストがかかる可能性がある
トレーニング体制とデータ、およびシステムプロンプトが不明