QuALITY
QuALITYは、英語の文脈パッセージを含む多肢選択式QAデータセット
長文書に対する言語モデルの理解能力を評価するために設計されている
その平均長は約5,000トークンと、現在(2022年)の一般的なモデルでは処理できないほど長い。
パッセージを使った先行研究とは異なり、我々の問題は要約や抜粋に頼るのではなく、パッセージ全体を読んだ投稿者によって書かれ、検証されている。
さらに、厳しい時間制約の中で作業するアノテーターが回答可能な問題は全体の半分しかなく、スキミングや単純な検索だけでは一貫して良い結果を出すことができないことを示している。
我々のベースラインモデルは、このタスクで低いパフォーマンス(55.4%)を示し、人間のパフォーマンス(93.5%)に大きく遅れをとる。