Large Language Models are not Fair Evaluators

Motivation 選んだ理由

GPTを評価に使う時によくあるバイアスを知っておきたい

Summary どんなもの？

GPT-4 をつかって他の言語モデルとChatGPTを80以上のクエリで比較

応答をスコアづけし、比較する際に生じるバイアスがあった

応答の評価は次のプロンプト

https://gyazo.com/2775bb3cfde76239f907c8edb780db31

バイアスを回避する戦略を提案

評価時にエビデンスの提示を求める

評価順を変えて複数回評価した結果を統合

バイアス

ポジションバイアス

応答の提示順を先にするか後にするかで評価が大きく変わる（場合がある）

https://gyazo.com/9d057d61c16af2aa4aa3349a337d264e

1. LLMはポジションバイアスをうけるが、影響の大きさはそれぞれ。賢いモデルのほうがポジションバイアスを受けにくい

2. LLMごとに、どの位置を好むかが変わる

GPT-4 は先に提示した応答を選びやすく、ChatGPTは後に提示したものを選びやすい

3. ポジションバイアスは回答の質に差が小さい場合に大きく影響がでやすい

Vicuna-13b vs Alpaca-13b よりも Vicuna vs ChatGPTのほうが強くバイアスの影響がでている

https://gyazo.com/cdc01f8d4de59d64cfcba5d6e78c4e0a

バイアスの較正

https://gyazo.com/97ce77a75d404a4a4411f817a7e78464

1. 複数の証拠を提示させる MEC (Multiple Evidence Calibration) strategy

モデルが最初に説明を生成し、次にスコアを与えることを要求する多重証拠キャリブレーション（MEC）戦略をとる。MECは、単一の証拠を生成するのではなく、複数の証拠の連鎖をサンプリングし、その平均スコアを最終スコアとして計算する。

2. 順序を入れ替える BPC (Balanced Position Calibration) strategy

順序を入れ替え評価を行い、スコアを平均化する

MEC とBPC をあわせてスコアを計算（MECでkエビデンス、BPCでx2 の全部の平均をとる）

$ CS_R = \sum_{i=1}^k \frac{S^i_R + S'^i_R}{2k}, R=r1, r2

BPDE (Balanced Position Diversity Entropy)

評価の妥当性を検証するための指標（一定値以上の場合、人手評価へまわす）

$ BPDE = \sum_{er \in \{win,tie,lose \} } -p_{er} \log p_{er}

$ P_{er} = \frac{\sum_{i=1}^k I(ER_i = er) + I(ER'_i = er)}{2k}

評価結果の平均情報量をみている

矛盾がなく整然としていればBPDE小、荒れていると大きくなる

Experiments どうやって有効だと検証した？

https://gyazo.com/b4a887dd63e0c6e6b02c09ecf0629c63

https://gyazo.com/0a5b279fd77a298e3950ae85daef5446

]https://gyazo.com/10833ab0ff082f0dc1452b69840df385