BoolQ
BoolQは15942の例を含む、はい/いいえ問題のための質問応答データセット。
これらの質問は自然発生的なもので、促しや制約のない設定で生成されたものです。
各例は(質問、文章、答え)の三つ組であり、オプションの追加コンテキストとしてページのタイトルがある。
テキストペアの分類は既存の自然言語推論タスクに似ている。
情報検索クエリの分布から質問をサンプリングすることで、(テキストペアをアノテータに促すのではなく)既存のNLIデータセットと比較して、より困難な例を観察することができる。
具体例
{
"質問":フランスはイギリスと同じタイムゾーンですか?
"一節":「1944年夏のフランス解放時、フランス首都圏はGMT+2を維持した。1944年--1945年の冬、フランス首都圏はイギリス
と同じGMT+1に切り替え、1945年4月には同盟国イギリスと同じGMT+2に再び切り替えた。1945年9月、フランス首都圏はGMT+1(戦前の夏時間)に戻った。フランス首都圏は1945年11月18日に正式にGMT+0に戻る予定だったが(イギリスは1945年10月7日にGMT+0に戻った)、フランス政府は1945年11月5日にこの決定を取り消し、それ以来GMT+1がフランス首都圏の公式時刻であり続けている。"
"answer": false、
"title":フランスの時間
}
BoolQ論文 概要
この論文では、自然発生的な、つまり、促されていない、制約のない状況で生成される「はい/いいえ」問題を研究する。我々はこのような質問からなる読解データセットBoolQを作成し、それらが予想外に困難であることを示す。このような問題は、しばしば複雑で非事実的な情報を問うものであり、その解決には困難な連言的推論を必要とする。また、様々な転移学習のベースラインの有効性を探る。我々は、含意データからの転移は、言い換えや抽出QAデータからの転移よりも効果的であり、驚くべきことに、BERTのような大規模な事前学習済み言語モデルから開始した場合でも、非常に有益であり続けることを発見した。我々の最良の方法は、MultiNLIでBERTを訓練し、我々の訓練セットで再訓練する。これは、人間の注釈者の90%の精度(および62%の多数決ベースライン)と比較して80.4%の精度を達成し、将来の研究のために大きなギャップを残している。