GLUE - evergreens

GLUE

自然言語処理（NLP）モデルの性能を評価するための標準ベンチマーク

テキスト分類、機械翻訳、要約、読解理解、対話生成など多様なタスクをカバー

CoLA(Corpus of Linguistic Acceptability)要約

文の文法的正しさを判断

STS-B(Semantic Textual Similarity Benchmark)

２つの文章の類似性を評価

QNLI(Question Natual Language Inference)

質問応答、質問と応答のペアの矛盾を判定

MNLI(Multi NLI)

文の意味的な関係を３つのクラスに分類（矛盾、中立、含意）

RTE(Recognizing Textual Entailment）

2つの文の含意関係（含意／含意でない）を判定するタスク

SST-2（The Stanford Sentiment Treebank）

文の感情（ポジティブ／ネガティブ）を判定するタスク

QQP（Quora Question Pairs）

2つの質問文が同じ意味かどうかを判定するタスク

MPRC(Microsoft Research Paraphrase Corpus）

2つの文が同じ意味かどうかを判定するタスク

論文: https://arxiv.org/pdf/1804.07461.pdf