MT-bench
80の高品質なマルチターンの質問からなるベンチマーク
共通の使用例をカバーし、モデルを区別するために挑戦的な質問に焦点を当てながら、マルチターンの会話と指示に従う能力をテストするように設計されている。
ユーザープロンプトの8つの共通カテゴリーを特定し、その構築をガイドしました:執筆、ロールプレイ、抽出、推論、数学、コーディング、知識I(STEM)、知識II(人文科学/社会科学)。
各カテゴリーに対して、10のマルチターンの質問を手動で設計されている。
具体例
https://scrapbox.io/files/65bc7b1d358cc1002479d2d1.png