常識推論タスクをどう評価するか?
ベンチマーク
JCommonsenseQAの検証データを使う
https://github.com/yahoojapan/JGLUE/blob/main/datasets/jcommonsenseqa-v1.1/valid-v1.1.json
ここからサンプリングした10件のデータを使う。
(全件を用いると検証に時間(とお金)がかかるため)
評価指標は、Accuracy
APIパラメータは、temperature:0、max_tokens:1にする
プロンプトテンプレート
lm-evaluation-harnessのソースコードを参考とすると7通り書いてあった。
https://github.com/Stability-AI/lm-evaluation-harness/blob/jp-stable/lm_eval/tasks/ja/jcommonsenseqa.py
簡便さのため、以下を使う
code:markdown
与えられた選択肢の中から、最適な答えを選んでください。
質問:{question}
選択肢:
- {choice0}
- {choice4}
回答:
参考資料
https://fintan.jp/page/9126/