MT-Bench
大規模言語モデル(LLM)ベースのチャットアシスタントを評価することは、その幅広い機能と人間の嗜好を測定するための既存のベンチマークの不十分さのために困難である。これを解決するために、我々は、よりオープンエンドな質問でこれらのモデルを評価するために、裁判官として強力なLLMを使用することを検討します。我々は、LLMの利用方法と、位置や冗長性の偏りや推論能力の制限といったLLMの限界を検証し、その一部を移行するための解決策を提案する。私たちは、Chatbot Arenaから、80のMTベンチの質問、3Kの専門家の投票、人間の嗜好を含む30Kの会話を公開します。