ELYZA Tasks 100
概要
本データセットはinstruction-tuningを行ったモデルの評価用データセットです。詳細は リリースのnote記事 を参照してください。
特徴:
複雑な指示・タスクを含む100件の日本語データです。
役に立つAIアシスタントとして、丁寧な出力が求められます。
全てのデータに対して評価観点がアノテーションされており、評価の揺らぎを抑えることが期待されます。
具体的には以下のようなタスクを含みます。
要約を修正し、修正箇所を説明するタスク
具体的なエピソードから抽象的な教訓を述べるタスク
ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク
場合分けを必要とする複雑な算数のタスク
未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク
複数の指示を踏まえた上でyoutubeの対話を生成するタスク
架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスク