常識推論タスクをどう評価するか?
ベンチマーク
ここからサンプリングした10件のデータを使う。
(全件を用いると検証に時間(とお金)がかかるため)
評価指標は、Accuracy
APIパラメータは、temperature:0、max_tokens:1にする
プロンプトテンプレート
lm-evaluation-harnessのソースコードを参考とすると7通り書いてあった。
簡便さのため、以下を使う
code:markdown
与えられた選択肢の中から、最適な答えを選んでください。
質問:{question}
選択肢:
- {choice0}
- {choice4}
回答:
参考資料