常識推論タスクをどう評価するか？ - evergreens

常識推論タスクをどう評価するか？

ベンチマーク

JCommonsenseQAの検証データを使う

https://github.com/yahoojapan/JGLUE/blob/main/datasets/jcommonsenseqa-v1.1/valid-v1.1.json

ここからサンプリングした10件のデータを使う。

(全件を用いると検証に時間（とお金）がかかるため)

評価指標は、Accuracy

APIパラメータは、temperature:0、max_tokens:1にする

プロンプトテンプレート

lm-evaluation-harnessのソースコードを参考とすると7通り書いてあった。

https://github.com/Stability-AI/lm-evaluation-harness/blob/jp-stable/lm_eval/tasks/ja/jcommonsenseqa.py

簡便さのため、以下を使う

code:markdown

与えられた選択肢の中から、最適な答えを選んでください。

質問：{question}

選択肢：

- {choice0}

- {choice4}

回答：

参考資料

https://fintan.jp/page/9126/