メタ認知プロンプト論文
https://scrapbox.io/files/6585a929cf88a20023d06893.png
タイトル:Metacognitive Prompting Improves Understanding in Large Language Models
発行日: 2023年8月
著者:Yuqing Wang, Yun Zhao
所属:カリフォルニア大学サンタバーバラ校、Meta Platforms, Inc.
論文のポイント
LLMの研究は、推論力強化とかばっかり。
自然言語理解(NLU)はAIの言語理解能力を指すが,その研究は限定的。 そもそも、認知プロセスは、推論とか問題解決の根っこにある、大事な概念。
高次レベルの認知は、抽象的な概念を分解し、シナリオを批判的に評価し、我々の推論を微調整する能力の基礎となる
つまりは、認知の洞察をプロンプトとして取り入れることで、モデルの性能が上がるのでは?と思いついた。
LLMのメタ認知の流れ
https://scrapbox.io/files/658681bda56bca0023b44d3b.png
1) LLMは提供されたテキストを解釈。
これは人間の理解を思い起こさせるフェーズ。
2) 次に、モデルは初期判断を行う。
これは、人間が情報に基づいて判断を生成する段階を反映している。
3) LLMはその予備的な推論を批判的に評価する。
これは、認知プロセス中に人間が従事する自己反省に合わせたステップ。
4) モデルは、最終的な決定を下し、その理由を説明。
これは、人間の意思決定と合理化に似ている。
5) 最後に、LLMは成果に対する自信度を評価。
これは、人間が自分の判断と説明の信頼性を評価する方法を反映している。
感情分析をさせるメタ認知プロンプトの具体例
「声明を理解し、初期の感情を識別してください。不確かな場合は、再評価してください。最終決定を確認し、その理由を提供してください。その後、この分析における自信(0 - 100%)を評価し、正当化してください」
実験
Data Set and Task
https://scrapbox.io/files/6586678883b2b10022a722ed.png
Data Model
Llama-2-13b-chat (Touvron et al. 2023) Vicuna-13b-v1.1 (Chiang et al. 2023) ,
PaLM-bisonchat (Anil et al. 2023),
GPT-3.5-turbo、 GPT-4 (OpenAI 2023)
プロンプト
SP, CoT, MP
Zero-shotと5-shotをそれぞれ行う
結果
MPは、大多数のデータセットで、CoTよりもスコアがよかった
https://scrapbox.io/files/65c8db87a479250025055fcf.png
average performance
https://scrapbox.io/files/65c8dc73933ba900239c46f6.png
https://scrapbox.io/files/65c8dd2f9840c50026f85e9c.png
PaLMは特にMPと組み合わせた場合に競争力のあるパフォーマンスを示した。COPAのデータセットでGPT-4に匹敵。
MPの適用による誤りのタイプには、「過剰思考」および「過剰修正」の2種類がある。
タスクを過度に複雑化してしまい、正しい解決策から逸脱する時は
もっとシンプルに再評価してねと言ってあげる
過度に修正しすぎて、おかしな回答になってしまった時は
「参照の初期の理解を思い出してください。この新しい評価は、あなたの初期の判断の本質を保っていますか、それとも大幅に異なりますか?」と導くことができる
モデルに初期の考えと改訂されたものを直接比較させることで、多くの変更を加えすぎることを防ぎ、バランスの取れた視点を維持するのに役立つかもしれない。
信頼度分析
AIが自信あると答えた時に、実際に正しい確率は58%で、AIが自信を持っていても、5.9%たまに間違える。逆に、AIが「これは自信がない」と思っていて、実際にその回答が間違っている確率は27.1%。
https://scrapbox.io/files/65c987d317adc80024353b5e.png
つまり、自信ある時は大体あってて、自信がないときには間違っていることが多い。
論文を読んで感じたこと
https://scrapbox.io/files/65867e9cedcc120023d5181c.png
正し、人間のようにLLMにメタ認知を完璧にさせることはできず、過剰修正や過剰思考などの問題が発生する。
「過剰思考」
タスクを過度に複雑化し、正しい解決策から逸脱する傾向があった。これは人間も同じで、考えすぎて頭がごちゃごちゃになってしまうということ。これを正すには、もっとシンプルに再評価してねと言ってあげると良い。
「過剰修正」
批判的に考えすぎて、元の考えと大幅にずれてしまうことがある。そんな時は、この評価は、あなたの初期の判断の本質を保っていますか?と、話ずれてない?と伝えてあげる。
実際のプロンプトはどうする?
GitHubのZero-shot Promptsを参考にする
概要
大規模言語モデル(LLM)では、効果的なプロンプト設計によって、タスク固有の性能において一貫して進歩が見られています。最近のプロンプト研究によってLLMの推論能力が強化されているものの、それらの理解能力をさらに向上させるためのギャップが残っています。本研究では、人間の内省的推理プロセスに触発された戦略であるMeta Cognitive Prompt(MP)を紹介します。MPを使用すると、LLMは体系的な一連の構造化された自己認識評価を行い、その広大な固有の知識と新たな洞察の両方に依存します。私たちの実験は、GLUEおよびSuperGLUEベンチマークからのさまざまな一般的な自然言語理解(NLU)タスクをカバーする5つの主要なLLM、Llama2、Vicuna、PaLM、GPT-3.5、およびGPT-4を含みます。結果は、GPT-4がほとんどのタスクで一貫して優れた成績を示しているものの、MPを搭載したPaLMがその性能レベルに近づいていることを示しています。さらに、モデルとデータセットをまたいで、MPは標準的なプロンプトや思考の連鎖プロンプトを含む既存のプロンプト方法を一貫して上回っています。この研究は、LLMの理解能力を増幅する可能性を強調し、NLUタスクで人間の内省的推理を模倣することの利点を浮き彫りにしています。 はじめに
大規模言語モデル(LLMs)は、近年、自然言語処理(NLP)において顕著な進歩を遂げています。しかし、これらのモデルが進化するにつれて、単にその規模を拡大するだけでは、必ずしもその理解力や推論能力を高めるわけではありません。プロンプト設計の複雑さに深く潜り込むことは、有望なアプローチとして浮上しています。これは、広範なファインチューニングの利点に匹敵するだけでなく、サンプル効率の面で明確な利点を提供します。 いくつかの研究努力が、特にCoT (Chain-of-Thought)アプローチを使用して、中間推論ステップを進めることを強調しながら、プロンプト設計を広範囲に探求してきました。この研究の軌跡は、Least to MostやSelf-consistencyなどの変種を生み出しました。これらの戦略は特定のコンテキストで効果的ですが、その主な目的は、算数、常識、および象徴的推論のような分野において、明示的な推論能力を高めることに中心を置いています。LLMsを思考の論理的進行を通じて導くことです。しかし、理解を深める能力には限界があります。推論は概念を体系的に結びつけることを含みますが、理解には、言葉の背後にある基本的なセマンティクスとより広いコンテキストの本質的な把握が必要です。以前の研究は主に、反応の論理的な進行を洗練することに重点を置いていましたが、「思考についての思考」としばしば定義されるメタ認知の概念は、独特の視点を提供します。認知心理学の分野から出てきたこの概念は、個人の認知プロセスの自己認識と内省に関連しています(Schwarz 2015)。この洞察に基づき、我々が提案する方法であるMeta Cognitive Prompt(MP)は、LLMsに人間のメタ認知プロセスの主要な側面を統合します。Figure 1は、人間のメタ認知ステージと我々の方法のLLMsにおける操作ステップとの間の類似性を示しています。 https://scrapbox.io/files/65c83e2ced37f000254a1435.png
この方法は、「どのように」反応が生じるかのメカニズムにのみ集中するのではなく、「なぜ」その背後にある理由により深く潜り込みます。この方法は次のように進行します:1) LLMは提供されたテキストを解釈します。これは人間の理解を思い起こさせるフェーズです。2) 次に、モデルは初期判断を形成します。これは、人間が情報に基づいて判断を生成する段階を反映しています。3) LLMはその予備的な推論を批判的に評価することにします。これは、認知プロセス中に人間が従事する自己反省に合わせたステップです。4) この内省的評価の後、モデルはその決定を最終化し、その推論を明らかにします。これは、人間の意思決定と合理化に似ています。5) 最後に、LLMは成果に対する自信を測定します。これは、人間が自分の判断と説明の信頼性を評価する方法を反映しています。このパラダイムは、モデルの機能を単純な体系的推論を超えて拡張し、その反応の深さと関連性を決定する内省的評価に参加するように促します。
我々は、GLUEおよびSuperGLUEベンチマークからのさまざまなNLUタスクについて、Llama2、Vicuna、PaLM、GPT-3.5、およびGPT-4を含むいくつかの主要なLLMsを使用して実験を実施しました。我々の実証的評価は、標準およびCoTプロンプティングなどの既存のプロンプティング戦略よりもMPの優位性を強調しています。この作業は、LLMsに人間に触発された内省的推論を組み込むことの重要性を強調し、彼らの理解能力を深めるアプローチを明らかにします。 要約すると、我々の貢献は三つあります:
(1)我々は、人間の内省的推論に根ざしたLLMsのための新しいプロンプティング戦略であるメタ認知プロンプティングを紹介します。この方法は、LLM内の自己認識評価プロセスを形式化し、単なるタスク実行とより深い理解との間のギャップを埋めます。
(2)我々の広範な実験は、さまざまなNLUタスクを通じてMPの既存のプロンプティングパラダイムに対する優位性を示し、LLMの理解能力を強化する潜在能力を強調しています。
(3)エラーと信頼性分析を通じて、MPがLLMの理解に人間に触発された内省を組み込んでおり、特定の理解の課題に対処し、モデルの信頼性を高めていることを示します。
関連研究
メタ認知プロンプティングの提案は、いくつかの基礎的な軌跡によって情報提供されています:LLMs内のプロンプティングの進化するパラダイム、NLPのより広い領域におけるNLUの進歩、および認知プロセスとNLUダイナミクスとの複雑な相互作用。
LLMsにおけるプロンプティング技術
プロンプトは、LLMsの広大な能力を指示するための不可欠なツールです。これら特別に設計されたクエリやステートメントは、モデルを指揮し、正確な出力を生成するか、特定のタスクを実行するように導きます。現在の研究は主にLLMsの推論能力を強化することに焦点を当てていますが、主な戦略には、複数ステップの推論を含むCoT関連の方法(Wei et al. 2022; Zhou et al. 2022; Kojima et al. 2022; Zhang et al. 2022)と、自己一貫性技術(Wang et al. 2022a; Zheng et al. 2023)があります。後者では、LLMsからの複数の回答が考慮され、正しいものが多数決によって決定されます。しかし、LLMs内のNLUを強化することにおいて依然として顕著なギャップが存在します。人間の認知プロセスに触発されて、我々はMPを導入します。このアプローチは、理解のギャップを埋めるだけでなく、より深い理解とより信頼性の高いモデル出力への道を開くことを目指しています。
NLPにおける自然言語理解
自然言語理解はNLPの基本的な側面であり、人間の言語のセマンティクスとニュアンスを機械が把握する能力を強調しています。その応用は、質問応答、テキスト分類、および自然言語推論などの多様な領域に及び、チャットボット、音声アシスタント、および機械翻訳などの商用ツールにも適用されます。LLMsは近年、顕著な注目を集めており、NLUの境界を拡大するための努力が増加していますが、主な研究の焦点は、その推論能力、倫理的使用、および広範な応用に置かれています。しかし、LLMsのNLU能力は比較的探求されていません。このギャップに対処するため、我々の研究は、効果的なプロンプティング技術を使用して、さまざまなLLMsの理解能力に深く潜り込みます。
NLUにおける認知プロセス
認知プロセスとNLUの相互作用は、常に計算言語学における中心的な考慮事項でありました。認知プロセスは、注意、記憶、推論、問題解決のような領域を包含し、人間が様々なシナリオで言語を理解し、生成し、関わっていく方法を支配します。これらのプロセスは、我々の言語能力に大きく影響を与えます。NLUの領域では、認知の洞察を取り入れることで、モデルの理解力を向上させる可能性があります。この内在的な接続を認識し、我々の作業は、思考と意思決定についての反省を反映し、高次認知に根ざした方法である、メタ認知ベースのプロンプティング技術を使用することに触発されました。これにより、伝統的なモデリング技術と認知のニュアンスを調和させ、LLMsの理解能力を強化します。
メタ認知プロンプティング
人間の認知の複雑な地形において、メタ認知-我々が自分の思考プロセスを内省し、調節する能力-は、複雑な問題解決と意思決定のための基石として立っています。この高次レベルの認知は、抽象的な概念を分解し、シナリオを批判的に評価し、我々の推論を微調整する能力の基礎となります。この作業の主要な目的は、言語モデルに、人間の「思考についての思考」を反映した一連の認知ステージであるシミュレートされたメタ認知プロセスを吹き込むことです。これにより、自然言語理解タスクの解釈と応答の能力を高めることを目指します。
我々が提案する方法であるメタ認知プロンプティング(MP)は、LLMsに人間のメタ認知の重要な要素を注入します。このアプローチは5つの異なるステージを含みます:
1) LLMは入力テキストを解読してそのコンテキストと意味を理解することから始めます。これは人間の思考における初期理解ステージを反映しています。
2) 次に、テキストの初期解釈を形成します。これは、人間の判断形成を反映したステップです。
3) その後、LLMはこの初期判断を正確さのために批判的に評価します。これは、問題解決中に人間が適用する自己検討に似ています。
4) この評価の後、LLMはその決定を最終化し、その推論の説明を提供します。これは人間の認知における意思決定と合理化の段階と一致しています。
5) 最終的に、LLMは全プロセスの結果に対する自信を評価します。これは、人間が自分の決定と説明の確実性を測る方法に似ています。Figure 2は、我々のMPを模式的に表したものです。それはメタ認知の5つの連続するステージ、LLMに向けられた特定のプロンプト、およびモデルからの対応する出力を概説しています。
https://scrapbox.io/files/65c8cb587cc715002437bbd7.png
表1は、標準プロンプティング(SP)およびCoTプロンプティングなどの一般的なプロンプティング方法と我々のMPを対比し、各方法に固有のガイドラインと目的の違いを強調しています。
https://scrapbox.io/files/65c8d546829ddb0024c9a099.png
SPは直接的な、タスク特有の手がかりに焦点を当てているのに対し、MPはメタ認知プロセスを一貫して適用し、各タスクのユニークな要求に適応します。CoT (Chain-of-Thought)の特徴である連続的な進行とは対照的に、MPはそのステージ全体を通じて連続的な批判的評価を統合し、理解と応答の両方を強化します。例えば、感情分析タスクでは、SPは単純に「声明の感情を肯定的または否定的として分類してください」と要求するかもしれません。一方、CoTはモデルをステップバイステップのプロセスを通じて導き、「声明における重要な感情的な言葉を特定してください。これらの言葉に基づいて、その全体的な感情を肯定的または否定的と分類しますか?」と尋ねます。一方、MPはモデルにより深い内省を促し、「声明を理解し、初期の感情識別を行ってください。不確かな場合は、再評価してください。最終決定を確認し、その理由を提供してください。その後、この分析における自信(0 - 100%)を評価し、正当化してください」と提案します。 本質的に、MPはLLMsがタスクを処理し、応答における文脈認識と内省を強化するための構造化されたアプローチを導入します。人間の認知プロセスを模倣するステージを通じてモデルを体系的に導くことにより、この方法は複雑な自然言語タスクに対処する新しい視点を提供します。それは、モデルが与えられたタスクの複雑さを単に把握するだけでなく、その推論を批判的に評価し、調整するパラダイムへと我々の認識と利用を変革します。このアプローチは、ユーザーとLLMsの間のより効果的で信頼性の高い相互作用の基盤を築きます。
実験
データセット
我々の実験には、GLUEおよびSuperGLUEベンチマークから選択された、一般言語理解のための幅広い範囲のデータセットを使用します。これらのデータセットは、感情分析(SST-2)、テキスト類似性(STS-B)、質問パラフレーズ(QQP)、質問回答含意(QNLI)、テキスト含意(WNLI)、RTE、CB、語義曖昧性解消(WiC)、共参照解決(WSC)、および質問応答(COPA)を含む様々なタスクを網羅しています。これらのタスクの中で、STS-Bは回帰タスクであり、残りは分類タスクです。これらのデータセットを選択する理由は、言語モデルの一般的な理解能力に挑戦するものであるためです。評価目的では、各タスクに対応する開発セットを使用します。表2は、タスクとデータセットの概要を提供します。
https://scrapbox.io/files/65c8d9710f65320023c94135.png
大規模言語モデル
我々の評価では、5つの人気のある大規模言語モデル(LLMs)を考慮します:オープンソースモデルのLlama-2-13b-chatおよびVicuna-13b-v1.1、およびクローズドソースモデルのPaLM-bisonchat、GPT-3.5-turbo、およびGPT-4。各モデルは、対応するAPIキーを使用して雇用されます。すべての方法において、我々は応答生成のために貪欲なデコーディング戦略(すなわち、温度 = 0)を適用します。さらに、我々は各モデルに対してゼロショットおよび5ショット設定を使用し、5ショット設定の例示はトレーニングセットからランダムに選択されます。各データセットには、例示の回答が人間の注釈を通じて得られる独自のセットがあります。 プロンプト
我々は、各タスクにおけるLLMsのパフォーマンスを向上させるために3つのプロンプティング戦略を使用します:標準プロンプティング(Brown et al. 2020; Kojima et al. 2022)、チェーン・オブ・ソート(CoT)プロンプティング(Wei et al. 2022)、および我々が提案するメタ認知プロンプティング。各プロンプトは、ゼロショットと5ショットの設定の両方で評価されます。プロンプトのフルセットは、補足資料に提供されています。
結果
我々の実証的評価では、使用された異なるプロンプティング方法を考慮して、すべてのデータセットおよびモデルを横断してパフォーマンスを比較します。また、3つのプロンプティング戦略の有効性を調査し、MPに関連するエラーを分析し、MPが適用されたときの信頼スコアと精度の関係を検討します。
全体的なパフォーマンス比較
表3は、さまざまな一般NLUデータセットを使用して3つのプロンプティング方法(SP、CoT、MP)を使用する5つのLLMs(Llama2、Vicuna、PaLM、GPT-3.5、GPT-4)のパフォーマンス比較を示しています。
https://scrapbox.io/files/65c8db87a479250025055fcf.png
各モデルおよびプロンプティング戦略の結果は、ゼロショットと5ショットの設定の間で平均化されます。5ショット学習アプローチの下では、モデルのパフォーマンスは、ゼロショット学習と比較して、すべてのタスクで一般的に改善を示します(補足資料の実験結果を参照)。GPT-4は、ほぼすべてのデータセットで一貫して最高のスコアを達成しています。GPT-4が優位なモデルとして際立っている一方で、PaLMは、特にMPと組み合わされたときに競争力のあるパフォーマンスを示します。この組み合わせは、COPAやWSCなどの特定のデータセットでGPT-4と密接に競合します。VicunaやGPT-3.5のように伝統的に競争力の低いLLMsにおいては、MPの採用は、特にCBやWSCのデータセットで、SPおよびCoTと比較してパフォーマンスを顕著に向上させます。さらに、MPは、大多数のデータセットでSPおよびCoTを上回ります。例えば、WSCデータセットでは、すべてのモデルを横断して、MPを使用するモデルは、標準およびCoTプロンプティングを使用するものに比べて、平均して9.7%および4.8%の精度向上を経験します。
プロンプティング戦略比較
我々は、すべてのモデルおよびデータセットを横断して、ゼロショットおよび5ショット学習設定の下で3つのプロンプティング戦略のパフォーマンスを評価します。モデルレベルの比較では、図3は、各モデルのすべてのデータセットを横断して各プロンプティング方法のパフォーマンスの集約されたビューを示しており、データセットおよび評価指標が等しく重要であり、直接比較可能であると仮定しています。
https://scrapbox.io/files/65c8dc73933ba900239c46f6.png
MPは優れており、SPに対して4.4%から6.5%、CoTプロンプティングに対して2.0%から4.3%の相対的なパフォーマンス向上を示しています。この向上したパフォーマンスは、モデルに初期判断を批判的に評価し、再検討し、反応を洗練させるよう促すMPの独自の内省戦略に帰せられます。我々がデータレベルの比較に焦点を移すと、表4は、各データセットに対して5つのモデルの平均パフォーマンスを提供します。
https://scrapbox.io/files/65c8dd2f9840c50026f85e9c.png
MPの批判的再評価能力は、特にWNLI、WSC、CBのようなデータセットで際立っており、それぞれCoTに対して3.7%、4.7%、および4.8%の顕著な改善をもたらします。MPの一貫した優れたパフォーマンスは、精密さ、識別力、および包括的な意味論的理解を要求するタスクにおけるその潜在能力を強調しています。一方で、MPに組み込まれた自己評価および反復的な洗練は、微妙な理解と文脈の深さを要求するタスクにおいてそれに利点を与えます。
エラー分析
MPは、さまざまなNLUタスクにわたって一貫して習熟を示しています。しかし、その不正確な予測の手動検査により、MPに特有の2つの主要なエラータイプが特定されました。最初に、「過度の思考エラー」は、感情分析(SST-2)や質問パラフレーズ(QQP)のような単純なデータセットで特に顕著です。これらの状況では、MPはタスクを過度に複雑化する傾向があり、正解から逸脱します。逆に、「過剰修正エラー」は、語義曖昧性解消(WiC)や共参照解決(WSC)など、微妙な解釈を要求するタスクで主に現れます。Figure 4にWiCデータセットからのエラー例が示されているように、MPの批判的再評価ステージは、時に初期の正確な解釈から過度に逸脱することがあります。 【過剰思考】
文章1:「神経細胞を興奮させる」
文章2:「祭りの幕開けを飾った花火はその場にいた全員を興奮させた.」
2つの文章はいずれも「excite(興奮させる)」という言葉を含んでいます。
ターゲットワードが両文で同じ意味で使われているかどうかを判断しなさい。
・AIのMP2段階目回答
-> ターゲットワードは同じ意味である:誤り(適切)
・AIの最終回答(MPの4・5段階目)
-> ターゲットワードは同じ意味である:正しい.
再評価の結果,「モデルは,両方の文脈が生物学的または感情的な反応を引き起こすことを示唆し,類似性という結論に至るという仮説を立てた」.この修正分析に対する信頼度は90%である.(誤答)
【過剰修正】
文章1:「The very easiness of the deed held her back.」
文章2:「There was an easiness between them.」
この2つの文には,どちらも目的語 "easiness"が含まれている.
この2つの文において,目的語が同じ意味で使われているかどうかを判断しなさい.
・AIのMP2段階目回答
-> ターゲットワードは同じ意味である:誤り(適切)
・AIの最終回答(MPの4・5段階目)
-> ターゲットワードは同じ意味である:正しい.
再評価の結果,両文章の「easiness」は感情状態に関係し,前者では単純さによるためらいを,後者では感情的な調和
を意味している.この修正された分析に対する信頼度は85%である.(誤答)
https://scrapbox.io/files/65866ff083b2b10022a756b8.png
これらの問題を軽減するために、MPの潜在的な改善策として、「批判的評価」フェーズ中に「単純化チェックポイント」を導入することが考えられます。特に、過度の思考が一般的なタスクの場合です。たとえば、モデルが感情分析タスクを批判的に再評価した後、プロンプトには次のような指示を組み込むことができます。「感情をその最も単純な形で再評価してください。これはあなたの批判的評価と一致していますか?」これにより、モデルはその複雑な推論を基本的な解釈とのバランスを取るよう促されます。さらに、過剰修正が起こりやすいタスクの場合、プロンプト内に「比較チェックポイント」を埋め込むことが潜在的な解決策になるかもしれません。たとえば、モデルが共参照解決タスクにおいて自分の判断を批判的に再評価した後、プロンプトは次のように指導するかもしれません。「参照の初期の理解を思い出してください。この新しい評価は、あなたの初期の判断の本質を維持していますか、それとも大幅に異なりますか?」モデルに初期の思考と修正後のものを直接比較させることで、あまりに多くの変更を加えるのを防ぎ、バランスの取れた視点を保つのに役立つかもしれません。
信頼度分析
MPフレームワーク内での信頼度と不確実性の評価は、特にモデルが自信のレベルを明示するとき、予測の信頼性を測定する上で重要です。我々の分析では、MPで動作する各モデルは、データセットを横断するすべての予測に対して、その口頭で表現された信頼度に基づいて評価されました。75%以上のスコアは高い信頼度として分類され、この閾値以下の値は低い信頼度と見なされます。この相関を明らかにするために、我々はこの研究のために特別に適応されたテーラーメイドの混同行列を使用しました。この行列内では、「True Positive」、「False Positive」、「True Negative」、「False Negative」の標準用語が以下のように再定義されます:
https://scrapbox.io/files/6586712812cfab002389cac8.png
True Positive (TP):MPを使用して高い信頼度を表明し、正しい回答を生成したインスタンスを表します。これらは58.3%を占めます。
False Positives (FP):モデルが高い信頼度を示したが、不正確な予測を与えたケースを示します。これらは27.1%を占めます。
True Negatives (TN):モデルが低い信頼度を示し、その応答が実際に不正確であったインスタンスを指します。これらは8.7%です。
False Negatives (FN):モデルが低い信頼度を示したが、驚くべきことに、正しい回答を提供したケースを強調します。これらは5.9%に達します。
制限事項
我々が提案するメタ認知プロンプティングは、人間の認知を思わせる内省的特徴をLLMに統合することで、それらの理解能力を強化する可能性を示していますが、我々の研究には制限があります。我々は、特定のデータセットとモデルの選択を使用してMPの効果を評価しましたが、これは我々の発見のより広い適用性を制限するかもしれません。LLMの口頭で表現された信頼度は、それらの認識された確実性レベルを理解する窓を提供しますが、それらの真の信頼度を包括的に評価するための決定的な方法として機能するかもしれません。自己一貫性チェックと組み合わせるなどのハイブリッドアプローチは、信頼度の校正のためのより堅牢な方法を提供するかもしれません。さらに、我々の研究は、潜在的なバイアス、プライバシーへの影響、および公平性の課題など、重要な倫理的および法的懸念を広範囲には対処しません。MPに関する将来の研究がこれらの側面を対処することが不可欠であり、異なるシナリオにわたってLLMの責任ある全体的な適用を保証する必要があります。
つまり、こういう課題がある。
MPは長めのプロンプトを要求するため,効率性に課題がある.
段階的プロセスに従うことで,過剰思考や過剰修正が生じる可能性がある.
MPの各段階の設計にはさらなる最適化の余地がある.
人間のメタ認知過程の完全な再現には至っていない.
MPの有効性は一般的言語理解タスクで確認できたが,他のタスクへの適用可能性は不明確.
長文や論理的に複雑な文章への適用には改良が必要.
MPによって本当に「理解力」が向上したかを直接測定できていない.
標準プロンプト,CoTと比較したMPの評価における精度向上については有意差検定は行う研究デザインにはなってない
議論
この研究では、LLMに人間の認知を反映した内省的特徴を注入するメタ認知プロンプティング(MP)を紹介しました。MPプロセスには5つの異なる段階が含まれます:入力テキストを理解することから始まり、初期判断を形成します。次に、この初期印象を批判的に再評価し、その理由を説明しながら決定を下し、最終的に行われた決定に対する自信を測定します。我々の実証的評価は、GLUEおよびSuperGLUEベンチマークからの幅広いNLUデータセットといくつかの著名なLLMを対象としました。結果は、標準およびCoTプロンプティングなどの既存のプロンプティング方法よりも明確な利点を示す、我々の方法の潜在性を強調しています。我々の分析を通じて、MPに関連する特定のエラーパターンが特定され、理解と判断の段階におけるニュアンスがさらなる洗練を必要とすることが強調されました。MPはモデルに内省するための構造化された道筋を提供しますが、リアルタイムのフィードバックに基づいて適応性を欠いています。MPの5段階設計は基礎的ですが、より人間のような認知フィードバックループをより本物らしく模倣するかもしれない、より複雑なフレームワークのための余地を示唆しています。
将来的には、さらなる探求が必要ないくつかの領域があります。特に、多言語またはドメイン特化のものなど、より広範なデータセットにMPを適用することは、有望な方向性です。プロンプティング戦略を洗練させることは、LLMからより詳細な内省的応答を引き出すかもしれません。さらに、我々の発見は、口頭で表現された信頼度に依存することが、より包括的な信頼度評価のための他の方法を統合することによって増強される可能性があることを示唆しています。さらに、内省的なLLMを導入することの広範な影響、特にバイアスや出力の信頼性に関して、詳細な検討が必要です。本質的に、MPによる我々の初期の試みは堅固な基盤を築きましたが、LLMと自然な人間の内省との間の類似性をより密接に引き出すための重要な機会が残っています。
https://scrapbox.io/files/658681f212d512002417aadf.png
1. プロンプト例:「〇〇を理解してください」
2. プロンプト例:「〇〇の理解に基づき、△△を行ってください」
3. プロンプト例:「その△△を批判的に評価し、再評価する必要があると感じますか?」
4. プロンプト例:「△△をそのように実行or作成した理由は何ですか?」
5. プロンプト例:「その△△に対する信頼度を評価し、その理由を説明してください。どれくらい自信を持っていますか?」