大規模言語モデル(LLM)の自信過剰
[2506.00582] Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs
人間は、ある課題をどれくらいうまくできるかという自己評価があまり得意ではなく、簡単な課題では自信を持てず、逆に難しい課題では自信過剰になりがちであることが、心理学の研究で指摘されています。
そこで、私たちは3つの主要な大規模言語モデル(LLM)、具体的にはLlama-3-70B-instruct、Claude-3-Sonnet、GPT-4oを用い、様々な難易度の質問応答タスクでその自己評価能力を検証しました。その結果、これらのAIモデルも自信過剰の傾向を示すものの、人間のそれとは少し異なる特徴を持つことが明らかになりました。
微妙にバージョンが古いミルヒト.icon
GPT-4oは役割の指定に対して人口統計学的バイアスが少ない
LLaMAやClaudeなど他のモデルが現在どうなっているのかは気になるところ
主な違いは以下の通りです。
課題の難易度への感度の低さ:
AIモデルは、課題が簡単でも難しくても、自信の度合いがあまり変化しませんでした。
ペルソナによる自信の偏り:
例えば「専門家として」「素人として」、あるいは特定の性別や年齢といった役割(ペルソナ)になりきって回答するよう指示すると、AIモデルは実際の回答の正確さ自体は変わらないにもかかわらず、その役割のステレオタイプに影響された自信の度合いを示してしまいました。
このような背景を踏まえ、AIモデルの自信の度合いをより適切に調整し、その判断根拠を理解しやすくするために、私たちは「AFCE(Answer-Free Confidence Estimation:回答なしの自信推定)」という新しい手法を提案しました。
AFCEは、AI自身が評価を行う手法で、以下の2つのステップで指示を出します。
1. まず、質問に対して「どれくらい自信があるか」だけを尋ねます。
2. 次に、改めて「回答そのもの」を生成させます。
この「自信の推定」と「回答の生成」を分離するアプローチが鍵となります。様々な分野と難易度の問題を含む代表的なデータセット(MMLUおよびGPQA)でAFCEの効果を実験したところ、この手法によってAIの過信が大幅に減少し、課題の難易度に対しても人間と似たような、より適切な反応を示すようになることが確認されました。この結果は、AIの自己評価能力と信頼性の向上に繋がるものと考えられます。
自信過剰が過ぎるとハルシネーションの指摘に対して反発する可能性がある
CopilotがBing Chatだった時代によくやらかしていた
AI「このURLを参考に回答した」
ユーザー「参照したが書いていなかった」
AI「ページ記述者が間違えている」
ユーザー「何を言っているんだ」