JGLUE
https://scrapbox.io/files/65cb6e7ef270db00245d9bc1.png
JSTS/JNKI
https://scrapbox.io/files/65cb6f064a995c00244ffc3d.png
JNLIはNLI (Natural Language Inference) データセットの日本語版。
NLIは仮説文に対する前提文の推論関係を認識するタスク。
推論関係には、含意、矛盾、中立がある。
https://scrapbox.io/files/65bb5d854688330025c20dd1.png
SQuADは、数文からなる段落とそれに関連する質問が与えられ、段落から抜き出す形で答えるタスク。
JSQuADはSQuADの日本語版で、Wikipediaの日本語記事を用い、段落に対応する質問とその答えをクラウドソーシングで作成された。
https://scrapbox.io/files/65cb6f2c56306d0024c084ea.png
v1の精度が良すぎたので、もっとベンチマークを難しくしてv2が誕生
https://scrapbox.io/files/65bcf4d9c23afc0023cb9fc0.png
MARK-ja
https://scrapbox.io/files/65cb6eec09faf40024690ee0.png
MARC-jaはテキスト分類タスクのデータセット。
このデータセットは、多言語Amazonレビューコーパス(MARC)の日本語部分に基づいている(Keung+, 2020)。
オリジナルのデータセットに対して以下の修正を行っている:
人間もコンピュータもクラスラベルを判断しやすくするため、テキスト分類タスクを二値分類タスクとした。3つ星評価のレビューは使用しない。
レーティングがレビューテキストと乖離している場合がある。dev/testインスタンスの品質を向上させるために、ポジティブ/ネガティブ判定タスクをクラウドソーシングし、10人中7人以上の作業者から同じ票を得たレビューのみを採用し、これらのレビューに最大票のラベルを割り当てる。
jsts
JSTSはSTS (Semantic Textual Similarity) データセットの日本語版
STSは文対の意味的類似度を推定するタスク。
https://scrapbox.io/files/65bb5d4f37290800244526ec.png
参考資料
https://www.youtube.com/watch?time_continue=424&v=5CiCuG71340&source_ve_path=MTM5MTE3LDI4NjYzLDEzOTExNywyODY2Ng