MT-bench - evergreens

MT-bench

80の高品質なマルチターンの質問からなるベンチマーク

共通の使用例をカバーし、モデルを区別するために挑戦的な質問に焦点を当てながら、マルチターンの会話と指示に従う能力をテストするように設計されている。

ユーザープロンプトの8つの共通カテゴリーを特定し、その構築をガイドしました：執筆、ロールプレイ、抽出、推論、数学、コーディング、知識I（STEM）、知識II（人文科学/社会科学）。

各カテゴリーに対して、10のマルチターンの質問を手動で設計されている。

具体例

https://scrapbox.io/files/65bc7b1d358cc1002479d2d1.png