JCommonsenseQA
常識推論のデータセット
code:markdown
{
"q_id": 3016,
"question": "会社の最高責任者を何というか? (What do you call the chief executive officer of a company?)",
"choice0": "社長 (president)",
"choice1": "教師 (teacher)",
"choice2": "部長 (manager)",
"choice3": "バイト (part-time worker)",
"choice4": "部下 (subordinate)",
"label": 0
}
LLMの性能向上に伴い、v1だとAccuracyが90%以上を叩き出したため、v2へとより難しいベンチマークの構築が行われた https://scrapbox.io/files/65cef47a85da9a0024b0002a.png
具体的には、
まず正解と類似している誤り選択肢をテキスト成モデルで自動生成
次に生成された誤り選択肢候補の中からクラウドソーシングで適切な誤り選択肢を選択し、選択肢に入れる
質問をリライトする