自然言語処理に関するベンチマーク
GLUE general Language Understanding Evaluationは、 9つのタスキングをカバーしてると。
ちょっと、内容の重複があって、怪しいな。でも、理解の起点になる。
コリーニング (CoLA)
Corpus of Linguistic Acceptability. 文章の構文的正当性を理解できるかを 0-1で評価
自然言語生成や文章の校正などにも使われることがあります。
ソマティック矛盾 (SST-2)
Stanford Sentiment Treebank
文章の感情的なニュアンスを 0-1で評価
例えば、「この新しい映画はとても面白かった」という文章は、SST-2タスキングではポジティブであると判断されるでしょう。
短い文章に対する感情分析 (MRPC)
Microsoft Research Paraphrase Corpus
2つの短い文章が意味的に同じかどうかを判定。意味の評価だけでなく、文章の照合などにも
例えば、「彼女は料理が上手だ」と「彼女は料理が得意です」という2つの短い文章は、MRPCタスキングでは同じであると判断されるでしょう。
単語意味論的相関 (STS-B)
Semantic Textual Similarity Benchmark
Semantic Textual Similarity Benchmarkの略で、2つの文章が意味的にどの程度似ているかを評価するタスキング
複数の文章を含む文書に対する感情分析 (RTE)
Recognizing Textual Entailment
Recognizing Textual Entailmentの略で、文章が他の文章を意味的に含んでいるかどうかを 0-1で評価
例えば、「私は今日の夕食にステーキを食べました」と「私は今日の夕食に肉を食べました」という2つの文章の場合、RTEタスキングでは、1番目の文章が2番目の文章を意味的に含んでいると判断されるでしょう。
句子(文)の真偽性判定 (QNLI)
Question Natural Language Inference
QNLIタスキングでは、ある文章が真であるかを0から1の範囲で評価し、1に近いほど真であると判断
例えば、「日本は東京に本部を置く大企業が多い」という文章の場合、QNLIタスキングでは真であると判断されるでしょう。
多言語意味翻訳 (MNLI)
Multi-Genre Natural Language Inference
ある(英語の)文章が別の(言語の)文章を意味的に含んでいるかどうかを評価
自然言語処理モデルが複数の言語間で文章の意味を理解する能力を評価するために使われることが多い
句子(文)の照合度 (QQP)
Quora Question Pairs
2つの文章が意味的に同じかどうかを評価するタスキング
単語の照合度 (WRQ)
Word Recognition in Queries
2つの単語が意味的に同じかどうかを評価する