LLMのタスクとデータセット
タスク
自然言語理解 (NLU:Natural Language Understanding) テキスト分類(text classfication)
固有表現認識(NER:Named Entity Recognition)
テキスト中に現れる固有名詞(人名、地名、組織名など)を識別しカテゴライズするプロセス)
含意予測(entailment predicition)
自然言語生成(NLG: Natural language generation) 大きく二つに分類される。
入力テキストを新しい記号のシーケンスに変換する
要約、機械翻訳等
入力された説明に正確にマッチするテキストや記号を1から生成(open-ended)
https://scrapbox.io/files/659e32d2d4ea2900242470bc.png
メールの作成、ニュース記事の作成、フィクションストーリーの創作、コードの記述等
推論能力(Reasoning ability)
数学推論、常識推論、記号的推論に分類される。
数学推論/問題解決(Arithmetic reasoning/problem solving)
(人間にとっては簡単だが)自然言語を数学的な記号に変換し、多段階の推論を行うもの。
常識推論(Commonsense reasoning)
事実についていくつかの推論ステップを行うことで問題を解くタスク。
知識集約的なタスク(Knowledge-intensive tasks)
ドメイン特化の専門知識や一般常識を必要とするタスク
データセット
NLU
SNLI(Sanford NLI)
スタンフォードが作ったテキストの含意関係を理解するための大規模コーパスです。
CB(Commitment Bank)
話し手や書き手がある命題に対してどの程度コミットしているのか評価するものです(SNLI、MNLIに近い)。
SQuADv2(Standord Question Answering Dataset v2)
通常のQAに加えて、回答不可能な問題が含まれています。
QuAC(Question Answering in Context)
対話形式の質問応答のデータセットです。
IMDB(Internet Movie DataBase)
映画のレビューを集めたデータセット、ポジティブなレビューとネガティブなレビューが含まれており、これらのレビューはラベル付けされている。
SST(Stanford Sentiment Treebank)
スタンフォード大学が開発した感情分析のためのデータセット。これは映画のレビューに対する感情を細かく注釈付けしたもので、文レベルだけでなく、フレーズレベルの感情極性も含まれています。
miscellaneaous text classfication
代表的なものとしてHELM(Holistic Evaluation of Language Models)があリます。
言語モデルの能力を多面的に評価するため多様な種類のデータセットを使用しています。
Adverarial NLI
通常のNLIタスクに加えて、特にモデルを欺くことを目的とした「敵対的な例」を用いて行うNLIです。
NLG
CNN と Daily Mail のジャーナリストによって書かれた 30 万件を超えるユニークなニュース記事を含む英語のデータセットです。抽出的要約と抽象的要約の両方をサポートしているが、元のバージョンは機械による読解と理解、および抽象的な質問応答のために作成されたものです。
XSUM
短い1文の要約を作成するデータセット。BBCの記事 (2010 年から 2017 年) から 226,711 件抽出され、幅広い分野 (ニュース、政治、スポーツ、天気、ビジネス、テクノロジー、科学、健康、家族、教育、エンターテイメント、芸術など) をカバーしています。
WMT
機械翻訳会議の共有タスクで使用されるデータセットのコレクションです。
DeepFix
コード修復データセット (Cプログラムのコンパイラ時のエラーを修正)です 。
数学推論/問題解決
主に算数の問題解決をテストするために設計されたデータセット。このデータセットは、小学校の算数の課題を模した8000の数学の問題。文章で記述された算数の問題であり、その解決には多段階の論理的推論が必要となリます。
SVAMP(Simple Variations on Arithmetic Math word Problems) 算数の問題を解くためのデータセットです。このデータセットは特に、問題の文法的な変化に焦点を当てており、モデルがさまざまな表現や文脈で提示された算数問題をどのように処理するかを評価するために使われます。
AQuA(Arithmetic Questions Answering) 算数と数学の問題を解くためのデータセットです。このデータセットは、実際の数学の試験から取られた複数の選択肢を持つ算数の問題からなります。AQuAデータセットの特徴は、単に問題文の算数の問題を解くだけでなく、それぞれの問題に対して正解だけでなく複数の誤った答えも提供されている点にあり、NLPモデルが数学的な知識だけでなく推論能力をも使って、なぜ特定の選択肢が正しいのか、または、なぜ他の選択肢が間違っているのかを理解し議論する能力を評価します。
間接的な質問に対して戦略的な推論を用いて答えを見つける必要があるデータセットです。StrategyQAの問題は、参加者が背後にある事実を知っていることを前提にしていますが、その事実を直接問うのではなく、関連する知識を結びつけ、論理的な推論を行う必要があります。
ARC-C(AI2 Reasoning Challenge-Complex) Allen Institute for Artificial Intelligence(AI2)によって作成されたもので、特に難易度の高い科学問題に焦点を当てたものです。このデータセットは、AIが中等教育レベルの科学の問題を解く能力を試すために設計されています。「ARC」は2つのサブセット「Easy」(ARC-E)と「Challenge」(ARC-C)からなります。ARC-Cは、特に難しい問題を集めたもので、より発展した推論、より深い理解、またはより広範な背景知識を必要とする。このデータセットには、物理学、生物学、地質学など、多岐にわたる分野の問題が含まれています。
知識集約的なタスク(Knowledge-intensive tasks)
AGIを見据えて専門家レベルの問題を集めたベンチマーク「MMMU」
GPT-4VやGemini Ultraでも正解率6割未満
MMLU(The massive multitask language understanding) ゼロショットおよびフューショットの設定でのみモデルを評価することによって、プリトレーニング中に獲得した知識を測定するために設計された新しいベンチマークです。これにより、より挑戦的なベンチマークになり人間の評価により近くなっています。このベンチマークは、STEM(科学、技術、工学、数学)、人文科学、社会科学など、57の科目をカバーしており、難易度は初等レベルから高度な専門レベルまで様々であり、一般常識と問題解決能力の両方をテストします。科目は、数学や歴史のような伝統的な領域から、法律や倫理のようなより専門的な領域まで多岐に渡ります。科目の細かさと広がりは、モデルの盲点を特定するのに理想的なベンチマークとなっています。
Big-bench(Beyond the Imitation Game Benchmark) 大規模言語モデルを探究し、その将来の能力を推測することを目的とした共同ベンチマークです。200以上の多くのタスクが含まれています。新しいタスクの提出が可能であり(英語以外も可能)、タスクは定期的にレビューされ、Big-benchリポジトリにマージされています。
実際のユーザーからの質問が含まれ、また質問に答えるためには回答が含まれているかどうか不明なWikipediaの記事全体を読んで理解する必要があります。解答を見つけるためにページ全体を読むことが求められるため、これまでのQAデータセットよりも現実的で難しくなっています。
6,642 の質問と回答のペアで構成されており、質問は大規模なナレッジ グラフであるFreebaseによって回答できるものです。
65万を超える質問-回答-証拠の三つ組を含む読解データセットです。トリビア愛好家によって作成された95,000の質問-回答ペアと、質問ごとに平均6つの独立して収集された証拠文書が含まれています。
日本語のデータセット
参考資料