CoVoST-2
https://scrapbox.io/files/6642cf16c1acde001c4d4482.png
「Common Voice Speech Translation」データセット
大規模な多言語の音声翻訳を評価するために用いられる。
つまりデータセットのスピーチを、LLMにASRさせて認識させる。 その結果を元に、対象言語へと翻訳させる。
その翻訳が、nativeスピーカの翻訳とどれくらい近いか、採点する
合計2,880時間のスピーチが用意されており、7万8,000人のスピーカーがいて以下をカバーしている。
英語から15言語への翻訳
21言語から英語への翻訳
https://scrapbox.io/files/6642d067b26ea2001de4b438.png
論文
GitHub