CoVoST-2
https://scrapbox.io/files/6642cf16c1acde001c4d4482.png
「Common Voice Speech Translation」データセット
大規模な多言語の音声翻訳を評価するために用いられる。
つまりデータセットのスピーチを、LLMにASRさせて認識させる。
その結果を元に、対象言語へと翻訳させる。
その翻訳が、nativeスピーカの翻訳とどれくらい近いか、採点する
合計2,880時間のスピーチが用意されており、7万8,000人のスピーカーがいて以下をカバーしている。
英語から15言語への翻訳
21言語から英語への翻訳
BLEUScoreで翻訳の品質を評価する指標が使われる。
https://scrapbox.io/files/6642d067b26ea2001de4b438.png
論文
https://arxiv.org/pdf/2007.10310
GitHub
https://github.com/facebookresearch/covost