Fever
https://scrapbox.io/files/65c4f98c81289100246e2732.png
FEVERは、テキストソースに対する事実抽出と検証のための一般公開されているデータセット。
このデータセットは、ウィキペディアのページ序文に対して手作業で検証された185,445の主張から構成され、支持(SUPPORTED)、反論(REFUTED)、または否定(NOTENOUGHINFO)に分類される。
最初の2つのクラスについては、システムとアノテータは、主張を支持または反論する必要な証拠を形成する文章の組み合わせも返す必要がある。
クレームは、人間のアノテーターがウィキペディアからクレームを抽出し、様々な方法で変異させることで生成された。
各クレームの検証は、元のクレームが抽出された文章ではなく、そのページを知っているアノテーターによって、別のアノテーションプロセスで行われた。したがって、クレームの31.75%では、複数の文章が適切な証拠とみなされた。クレームでは、16.82%のケースで複数の文から証拠を構成する必要がある。さらに、12.15%のクレームでは、この証拠は複数のページから取られていた。
このデータセットは、ウィキペディアから抽出された文章を改変することで生成された185,445の主張から構成され、その後、その主張がどの文章から抽出されたかを知ることなく検証される。クレームは、Fleiss κで0.6841を達成したアノテータによって、Supported、Refuted、NotEnoughInfoに分類される。最初の2クラスについては、アノテータは判断に必要な証拠となる文章も記録している。提示されたデータセットの課題を特徴付けるために、我々はパイプラインアプローチを開発し、適切に設計されたオラクルと比較した。正しい証拠を伴う主張をラベル付けする際に我々が達成した最高の精度は31.87%であり、証拠を無視した場合は50.91%であった。このように、FEVERはテキストソースに対するクレーム検証の進歩を促すのに役立つ、挑戦的なテストベッドであると我々は信じている。