SuperGLUE
「SuperGLUE」とは、自然言語処理(NLP)の分野で使われる、言語理解モデルの能力を評価するためのベンチマークセットのことです。これは、以前に開発された「GLUE」(General Language Understanding Evaluation)ベンチマークの後継として設計されました。SuperGLUEは、より困難で多様なタスクを含むことにより、人工知能(AI)モデルの言語理解能力をより深く評価することを目指しています。 SuperGLUEには、以下のようなタスクが含まれています:
BoolQ
簡単な質問に対して「はい」または「いいえ」で答える。
CB(CommitmentBank)
文が与えられた文脈に対してどの程度納得できるかを評価する。
COPA(Choice of Plausible Alternatives)
因果関係または連続性を理解するための選択問題。
MultiRC
複数の答えが存在する読解問題。
ReCoRD
ニュース記事から情報を読み取り、空白を埋める。
RTE(Recognizing Textual Entailment)
与えられた文が他の文をどの程度サポートしているかを評価する。
WiC(Words in Context)
与えられた単語が2つの異なる文脈で同じ意味を持つかを評価する。
WSC(Winograd Schema Challenge)
代名詞の参照先を正確に理解する。
SuperGLUEは、言語モデルの理解力、推論能力、文脈の把握能力などを包括的に測定するために設計されており、最先端のAIモデルの性能を評価する際の重要な基準の一つとなっいる。