MuSiQue
https://scrapbox.io/files/65a72c3b4b4fa700237ee08c.png
一言で言うと、めっっちゃむずいデータセット
一手先ではなく、何手先も読まないと正解が出せない
MuSiQueは、マルチホップ質問応答(QA)データセットを構築するための、シングルホップ質問の合成に基づく半自動プロセス。
このプロセスは、マルチホップ質問を単一ホップ質問の構成として形成することで、その結果の質問の品質をより良く制御することができる。
このアプローチにより、接続された推論を持つデータセットの構築、推論ステップの部分的な重複の排除、ホップと構成構造の変数数の制御、およびコンテキストを変更することで解決不可能な質問との対比が可能に。
MuSiQueは、特に最先端のQAモデルにとって挑戦的であり、既存のデータセットよりもはるかに困難であることが実験により示されています。
MuSiQue-Fullという、より難解なデータセットも構築されており、これは回答可能なコントラスト質問ペアと回答不能なコントラスト質問ペアから構成されています。
具体例
1. 「ナミビアの初代大統領の後を継いだのは誰ですか?」という質問に答えるためには、まず「ナミビアの初代大統領は誰ですか?」(答え:サム・ヌジョマ)という質問の答えを知る必要があり、次に「サム・ヌジョマの後を継いだのは誰ですか?」(答え:ヒフィケプニェ・ポハンバ)という質問に答える必要があります。
2. 「ビリー・ギルズが亡くなった場所で使用されている通貨は何ですか?」という質問に答えるためには、「ビリー・ギルズが亡くなった場所はどこですか?」(答え:ベルファスト)、「ベルファストはイギリスのどの部分に位置していますか?」(答え:ノーザンアイルランド)、「ノーザンアイルランドで使用されている通貨単位は何ですか?」(答え:ポンド)という一連の質問に答える必要があります。
マルチホップ推論は、既存のマルチホップベンチマークが主にショートカットを使って解決可能であることが知られているため、依然として捉えどころのない目標です。 適切なマルチホップ推論を必要とする質問応答(QA)データセットを作成することは可能でしょうか?この目的のために、我々は、相互に接続された、つまり一つの推論ステップが別の情報に重要に依存する単一ホップの質問の組み合わせ可能なペアを体系的に選択するボトムアップアプローチを導入します。このボトムアップ方法論により、我々は広大な質問の空間を探索し、接続された推論を対象とする厳格なフィルターやその他のメカニズムを追加することができます。これにより、構築プロセスと結果としてのkホップ質問の特性を微細に制御できます。この方法論を使用して、25Kの2-4ホップ質問を含む新しいマルチホップQAデータセットMuSiQue-Ansを作成しました。既存のデータセットと比較して、MuSiQue-Ansは全体的に難しく(人間とマシンのギャップが3倍増)、切断された推論を使ってチートすることが難しい(例えば、単一ホップモデルのF値/F1スコアが30ポイント減少)です。さらに、より厳格なデータセットであるMuSiQue-Fullを作成するために、回答不可能な対照的な質問を追加しました。我々は、NLPコミュニティが本物のマルチホップ推論を行うモデルを開発するのに役立つことを願っています。