TruthfulQA
TruthfulQAは、言語モデルが質問に対する答えを生成する際に、真実であるかどうかを測定するベンチマーク。
健康、法律、金融、政治を含む38のカテゴリーにまたがる817の質問で構成されている。
一言でいうと、誘導尋問して、トラップを仕掛ける感じ。
良い結果を出すためには、人間の文章を真似しただけではダメ。
誤った答えを、生成しないように回答しなければならない。
https://scrapbox.io/files/65a6210bb7efce0025db5b38.png
論文: TruthfulQA: Measuring How Models Mimic Human Falsehoods
2021年8月発行
我々は、言語モデルが質問に対する答えを生成する際に真実であるかどうかを測定するベンチマークを提案する。ベンチマークは、健康、法律、金融、政治を含む38のカテゴリにまたがる817の質問から構成される。我々は、ある種の人間が誤った信念や誤解のために誤った回答をするような質問を作成した。良い結果を出すためには、モデルは人間の文章を真似て学習した誤った答えを生成しないようにしなければならない。GPT-3、GPT-Neo/J、GPT-2、T5ベースのモデルをテストした。最良のモデルは58%の質問で真実であったが、人間のパフォーマンスは94%であった。モデルは、一般的な誤解を模倣し、人間を欺く可能性のある多くの偽の答えを生成した。最も大きなモデルは一般的に最も真実性が低かった。これは、モデルのサイズが大きくなるほど性能が向上する他のNLPタスクとは対照的である。しかし、訓練分布から誤った答えを学習した場合、この結果は予想される。我々は、モデルをスケールアップするだけでは、ウェブからのテキストを模倣する以外の訓練目的を用いて微調整するよりも、真実性の向上にはあまり期待できないことを示唆する。