DROP
推論ベンチマーク。
段落を超えた離散的な推論を必要とする読解力ベンチマーク
具体的な質問
1517年、17歳の王はカスティーリャに向かった。そこでは、彼のフランドル宮廷が......。1518年5月、シャルルはアラゴンのバルセロナに向かった。 シャルルが最初に向かったのはカスティーリャかバルセロナか?
答え: カスティーリャ
概要
DROPは、クラウドソーシングにより、敵対的に作成された96k問のベンチマークである。このベンチマークでは、システムは問題中の参照を解決し、おそらく複数の入力位置に対して、(加算、カウント、ソートなどの)離散的な操作を実行しなければならない。これらの操作は、以前のデータセットで必要とされたものよりもはるかに包括的な段落の内容の理解を必要とする。問題はウィキペディアの記事から抽出された文章で構成されている。データセットは、約77,000問のトレーニングセット、約9,500問の開発セット、開発セットと同規模の隠しテストセットに分かれている。
論文
最近、読解は急速に進歩し、読解のための最も一般的なデータセットにおいて、システムが人間と一致するようになった。しかし、多くの研究がこれらのシステムの脆弱性を浮き彫りにしており、やるべきことが多く残されていることを示している。我々は、パラグラフの内容に対する離散推論を必要とする新しい英語読解ベンチマークDROPを紹介する。このクラウドソーシングされた、敵対的に作成された96k問のベンチマークでは、システムは、おそらく複数の入力位置に対する問題中の参照を解決し、それらに対する離散的な操作(加算、カウント、ソートなど)を実行しなければならない。これらの操作には、以前のデータセットで必要であったものよりも、はるかに包括的な段落の内容の理解が必要である。我々はこのデータセットに読解と意味解析の両方の文献から最新の手法を適用し、最も優れたシステムが我々の一般化された精度指標で32.7%のF1しか達成できないのに対し、熟練した人間の性能は96.0%であることを示す。さらに、読解手法と単純な数値推論を組み合わせた新しいモデルを提示し、47.0%のF1を達成した。