COMET
COMET: A Neural Framework for MT Evaluation
https://arxiv.org/pdf/2009.09025
https://github.com/Unbabel/COMET
embeddingから得られた特徴量を入力としたDNNを用いて、以下の各種指標との誤差を最小にすることを目指している
METEORとは関係ないっぽい?
ChatGPTによると。。。
DA (Direct Assessment)
DAは「直接評価」の略で、機械翻訳の品質を評価するための方法です。具体的には、評価者が翻訳されたセグメント(文の一部分)を見て、その品質に対してスコアを付けます。このスコアは通常、絶対的な尺度で表され、例えば0から100の範囲で付けられることが多いです。評価者は翻訳の自然さ、正確さ、文法の正しさなどを考慮してスコアを付けます。
MQM (Multidimensional Quality Metrics)
MQMは「多次元品質指標」の略で、機械翻訳の品質を多角的に評価するためのフレームワークです。MQMでは、翻訳のエラーをいくつかのカテゴリに分類し、それぞれのエラーの重大度や影響を評価します。例えば、用語の一致、文法エラー、意味の誤りなどが評価の対象となります。MQMは、翻訳の全体的な品質を多面的に捉えることで、より詳細で具体的なフィードバックを提供します。
HTER (Human Translation Edit Rate)
HTERは「人間翻訳編集率」の略で、機械翻訳の出力を人間がどの程度修正する必要があるかを測る指標です。具体的には、機械翻訳された文を正しい翻訳にするために必要な編集操作(挿入、削除、置換など)の数を計測し、その編集量を基にスコアを算出します。HTERは、翻訳の品質を客観的に評価する方法として広く使われています。
まとめ
DA (直接評価): 評価者が翻訳の品質に対して直接スコアを付ける方法。
MQM (多次元品質指標): 翻訳エラーをカテゴリ別に評価し、詳細な品質評価を行うフレームワーク。
HTER (人間翻訳編集率): 翻訳を正しいものにするために必要な編集量を基に品質を評価する指標。
これらの指標は、それぞれ異なる側面から機械翻訳の品質を評価するため、併用することでより総合的な評価が可能になります。