MIRACL
https://scrapbox.io/files/663ef12345a2f0001d6a9b56.png
情報検索のための大規模多言語データセット。
世界中の30億人以上のネイティブスピーカーを含む18言語にわたる徹底したヒューマンアノテーションが施されている。
概要
18言語のウィキペディアに対する約77kのクエリに対して、合計で700k以上の高品質な関連性判定を収集し、すべての評価は我々のチームが雇ったネイティブスピーカーによって行われた。我々の目標は、連続した言語間の検索を改善する研究を促進し、世界中の多様な人々、特に伝統的に十分なサービスを受けてこなかった人々の情報アクセス能力を向上させることである。
https://scrapbox.io/files/663ef23b790d14001d2e87b0.png