GLUE
自然言語処理(NLP)モデルの性能を評価するための標準ベンチマーク テキスト分類、機械翻訳、要約、読解理解、対話生成など多様なタスクをカバー
CoLA(Corpus of Linguistic Acceptability)要約 文の文法的正しさを判断
STS-B(Semantic Textual Similarity Benchmark)
2つの文章の類似性を評価
QNLI(Question Natual Language Inference)
質問応答、質問と応答のペアの矛盾を判定
MNLI(Multi NLI)
文の意味的な関係を3つのクラスに分類(矛盾、中立、含意)
RTE(Recognizing Textual Entailment)
2つの文の含意関係(含意/含意でない)を判定するタスク
SST-2(The Stanford Sentiment Treebank)
文の感情(ポジティブ/ネガティブ)を判定するタスク
QQP(Quora Question Pairs)
2つの質問文が同じ意味かどうかを判定するタスク
MPRC(Microsoft Research Paraphrase Corpus)
2つの文が同じ意味かどうかを判定するタスク