CoLA
Corpus of Linguistic Acceptability(CoLA)は、言語学的な受容性(文が文法的に正しいかどうか)に関する研究のためのデータセット。
自然言語処理(NLP)の分野で、特に文の文法的正当性を自動的に評価するモデルの訓練とテストに使用される。 23の言語学出版物から10657の文から構成され、原著者により受容性(文法性)の注釈が付されている。
CoLAの主な特徴は次のとおり
人間による注釈
データセットには、文が文法的に受け入れられるかどうかについての人間による注釈が含まれている。
これは、文法的に正しい文と間違った文の両方を含んでいます。
文法的多様性
CoLAには、さまざまな種類の文法的課題を含む文が含まれている。
これにより、言語モデルが文法的知識をどの程度理解しているかを評価するのに役立つ。
ベンチマークとしての利用
CoLAは、自然言語処理の分野で広く使われるGLUE(General Language Understanding Evaluation)ベンチマークの一部です。これは、機械学習モデルが言語をどの程度理解しているかを測定するための一連のテストです。 研究用途
このデータセットは、言語学、特に文法の理論的側面を探求するための研究にも使われる。
また、言語モデルが人間の言語理解の特定の側面をどのように捉えているかを分析するのにも役立つ。
CoLAは、言語の文法的側面を理解する上で重要なツールとなっており、特に機械学習モデルの能力を評価し、改善する上で重要な役割を果たしている
本稿では、人工ニューラルネットワークの言語能力を検証する目的で、文の文法的可否を判断する能力を調査する。言語学的受容性コーパス(CoLA)を導入する。CoLAは、公表されている言語学文献から、文法的か非文法的かのラベルが付けられた10,657の英文セットである。ベースラインとして、受容性分類に関する複数のリカレントニューラルネットワークモデルを訓練し、我々のモデルがCoLAに関するLau et al (2016)による教師なしモデルを上回ることを見出す。特定の文法現象に関するエラー分析により、Lauらのモデルも我々のモデルも、主語-動詞-目的語の順序のような体系的な汎化を学習することが明らかになった。しかしながら、我々がテストした全てのモデルは、幅広い文法構文において人間のレベルをはるかに下回る結果を示した。
日本語版もある
JCoLA (Japanese Corpus of Linguistic Acceptability)は、言語モデルの構文評価を目的とした新しいデータセットである。文章は言語学雑誌、ハンドブック、教科書から手作業で抽出されている。JCoLAはJGLUEベンチマーク(Kurihara et al., 2022)に含まれている。
ダメなやつと人間が注釈をつけたものの例(out of domain annotated)
https://scrapbox.io/files/65a0fe54ad559000240539dd.png