シカファンシー
sycophancy
ごますり、おべっか、ヨイショ
一般的には、なんらか利益を得るために、権力者や富裕層を誠実でない方法で賞賛する行為
LLM
が過剰にユーザーに同調し、媚びへつらう回答を出力することにも使われる語
Sycophancy in GPT-4o: what happened and what we’re doing about it | OpenAI
ユーザーに対するイエスマン化、迎合
ELEPHANT
主要AIモデルのシカファンシー傾向を測定するベンチマーク
スタンフォード大学、カーネギーメロン大学、オックスフォード大学の研究チームが開発
social sycophancyを測定するよう設計されている。
これは、たとえその応答が誤解を招いたり有害であったりしても、ユーザーの「顔」を立てたり、自己評価を尊重したりしようとするモデルの傾向を指す。ELEPHANTは社会科学から導かれた指標を用いて、感情的な承認、道徳的な承認、間接的な表現、間接的な行動、そしてフレーミングの容認という5つの微妙なふるまいを評価する。
MIT Tech Review: 過剰なLLMの「ヨイショ度」を計測するベンチマークが登場