HotpotQA
https://scrapbox.io/files/65c4f4d7fb2d1500256e0f6f.png
問題の例
段落A, オリンポスへの帰還:
【1】オリンポスへの帰還は、オルタナティブ・ロックバンド、マルファンクションによる唯一のアルバムです。【2】このアルバムは、バンドが解散した後、そしてリードシンガーのアンドリュー・ウッド(後のマザー・ラブ・ボーン)が1990年に薬物過剰摂取で亡くなった後にリリースされました。【3】パール・ジャムのストーン・ゴッサードが曲をまとめて、自身のレーベル、ルースグルーヴ・レコーズからアルバムをリリースしました。
段落B, マザー・ラブ・ボーン:
【4】マザー・ラブ・ボーンは、1987年にワシントン州シアトルで結成されたアメリカのロックバンドでした。【5】このバンドは1987年から1990年まで活動していました。【6】フロントマンのアンドリュー・ウッドの個性と作曲は、グループを1980年代後半から1990年代初頭にかけての芽生えつつあるシアトル音楽シーンのトップへと押し上げるのに役立ちました。【7】ウッドはバンドのデビューアルバム「アップル」の予定されていたリリースの数日前に亡くなり、グループの成功への希望を終わらせました。【8】そのアルバムは数ヶ月後に最終的にリリースされました。
Q: 「アップル」のリリース直前に亡くなったマザー・ラブ・ボーンのメンバーの以前のバンドは何ですか?
A: マルファンクション
支持事実: 1
HotpotQAは英語版ウィキペディアで収集された質問回答データセット
ウィキペディアの2つの記事の導入パラグラフを回答として要求するよう構成された、約113Kのクラウドソースによる質問が含まれている。
このデータセットの各質問には、2つの金パラグラフと、クラウドワーカーが質問に答えるために必要な事実として特定したパラグラフの文のリストが含まれている。
HotpotQAでは、質問中のエンティティの欠落を含む問題、交差問題(プロパティAとプロパティBを満たすものは何か)、2つのエンティティを共通の属性で比較する比較問題など、多様な推論ストラテジーが用意されている。
数文書のディストラクターの設定では、QAモデルには金のパラグラフが見つかることが保証されている10パラグラフが与えられる。
オープンドメインのフルウィキの設定では、モデルには質問とウィキペディア全体のみが与えられる。モデルは回答精度と説明可能性で評価され、前者は完全一致(EM)と単グラムF1による予測回答と金回答の重なりとして測定され、後者は予測された裏付け事実文が人間の注釈(Supporting Fact EM/F1)とどの程度一致するかに関係します。このデータセットでは、システムが両方のタスクで同時に良い結果を出すことを奨励する、ジョイントメトリックも報告されている。
https://scrapbox.io/files/65c4f54c9dac170025e485e7.png
既存の質問応答(QA)データセットは、QAシステムが複雑な推論を行い、回答に対する説明を提供できるように訓練することができない。我々はHotpotQAを紹介する。HotpotQAは113kのウィキペディアベースの質問と回答のペアを持つ新しいデータセットであり、4つの重要な特徴を持つ:(1)質問には、回答するために複数の裏付け文書を見つけ、推論する必要がある。(2)質問は多様で、既存の知識ベースや知識スキーマに制約されない。(3)推論に必要な文レベルの裏付け事実を提供し、QAシステムが強力な監督下で推論し、予測を説明できるようにする。(4)新しいタイプの事実比較問題を提供し、QAシステムが関連する事実を抽出し、必要な比較を実行する能力をテストする。我々は、HotpotQAが最新のQAシステムにとって挑戦的であること、そして、サポートファクトによってモデルがパフォーマンスを向上させ、説明可能な予測を可能にすることを示す。