NTREX-128
https://www.marktechpost.com/2023/01/23/microsoft-ai-releases-ntrex-128-a-new-data-set-for-machine-translation-mt-evaluation-from-english-into-a-total-of-128-target-languages/Microsoft AI、英語から計128のターゲット言語への機械翻訳(MT)評価用データセット「NTREX-128」を公開
多言語ニューラル機械翻訳(MNMT)は、一つのシステムで複数のソース言語とターゲット言語間の文の翻訳を可能にし、導入コストを削減します。
大規模なMNMTのために開発されたモデルの有効性を評価するためには、膨大なデータへのアクセスが必要である。そのような資料の作成には高いコストがかかるため、テストデータは不足している。特に100以上の言語のテストセットを考慮した場合、その傾向は顕著である。これは、そのようなモデル開発の障害になっている。
この研究により、128のターゲット言語に対する英語の多言語テストが大幅に強化されました。NTREX-128ベンチマークを構成する123文書(1,997フレーズ、42kワード)は、英語から128言語へ翻訳されたものです。提示されたデータはWMT19のテストデータの複製であり、SacreBLEUと完全な互換性を持っている。