バイアスのベンチマーク
大規模言語モデルにおける認知バイアスの軽減
ある判断をする際に非合理的な意思決定や規範からの逸脱をしてしまう傾向のこと
認知バイアス - Wikipedia
CoBBLEr
LLM がテキストの品質の評価を行う際に、その出力における 6 種類の認知バイアスの影響を測定するベンチマーク
https://minnesotanlp.github.io/cobbler-project-page/
Order bias
The tendency to give preference to an option based on their order (e.g. first, second, or last).
順序バイアス
選択肢の順序(例:最初、2番目、最後など)に基づいて特定の選択肢を優先する傾向。
Compassion fade
The tendency to observe different behaviors when given recognizable names as opposed to anonymized aliases.
共感の薄れ
認識可能な名前が与えられた場合と匿名化された別名の場合で、異なる行動を示す傾向。
Egocentric bias
The inclination to prioritize one's own responses regardless of response quality.
自己中心バイアス
回答の質に関わらず、自身の回答を優先する傾向。
Salience bias
The tendency to prefer responses based on the length of the response (more often preferring shorter responses or longer responses).
顕著性バイアス
回答の長さに基づいて回答を好む傾向(より短い回答やより長い回答を好む傾向)。
Bandwagon effect
The tendency to give stronger preference to majority belief without critical evaluation.
バンドワゴン効果
批判的な評価なしに多数派の信念に強く傾く傾向。
Attentional bias
The inclination to give more attention to irrelevant or unimportant details.
注意バイアス
関連性のないまたは重要でない詳細に過度の注意を向ける傾向。
類似のもの:大規模言語モデルの自動評価における冗長バイアスの調査
位置バイアス:二つ文章を比較評価させるような場合、一つ目の文章を好みがち。位置を入れ替えて2回評価することで対処可能。
冗長バイアス:長い文章を好みがち。
自己推進バイアス:評価するモデルと同じモデルが生成した文章を好みがち。当てはまる問題設定が限られる。
こういうのは生成イラストでも起こる?
バイアス
バイアスとは、一般的には偏りや傾向を示す概念である。統計学においては、測定値と真の値との間の系統的な差異を指す。これは、測定器具の誤差や観察者の主観などにより生じる。また、機械学習においては、モデルが真のデータ分布を適切に捉えられないことによる誤差を指す。これは、モデルの複雑さが不足している場合や、学習データが真のデータ分布を反映していない場合に生じる。バイアスは、情報の解釈や判断に影響を与え、結果として誤った結論を導く可能性がある。
一般的な概念と機械学習の現象が区別されていた
人間が関与していないタイミングで起こる誤差だから?
人間側の例
車椅子をホラー作品に出す
[GDC 2019]ゲームにおける身体的・精神的な障害の表現と,そこに働くバイアス,そして秘められた可能性とは - 4Gamer.net