CoVoST-2 - evergreens

CoVoST-2

https://scrapbox.io/files/6642cf16c1acde001c4d4482.png

「Common Voice Speech Translation」データセット

大規模な多言語の音声翻訳を評価するために用いられる。

つまりデータセットのスピーチを、LLMにASRさせて認識させる。

その結果を元に、対象言語へと翻訳させる。

その翻訳が、nativeスピーカの翻訳とどれくらい近いか、採点する

合計2,880時間のスピーチが用意されており、7万8,000人のスピーカーがいて以下をカバーしている。

英語から15言語への翻訳

21言語から英語への翻訳

BLEUScoreで翻訳の品質を評価する指標が使われる。

https://scrapbox.io/files/6642d067b26ea2001de4b438.png

論文

GitHub