GEMBA-MQM論文
https://scrapbox.io/files/65ce0deae3384500253a9f0b.png
論文情報
タイトル:GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4
発行日:2023年10月
著者:Tom Kocmi, Christian Federmann
所属:Microsoft
-
概要
この論文では、翻訳品質のエラーを検出するために設計された、GPTに基づく評価指標であるGEMBA-MQMを紹介します。特に、人間による参照翻訳を必要とせずに品質推定設定のために。大規模言語モデル(LLM)の力に基づいて、GEMBA-MQMは固定された3ショットのプロンプト技術を使用し、GPT-4モデルにエラー品質の範囲をマークするように照会します。以前の作業と比較して、私たちの方法は言語に依存しないプロンプトを持っているため、新しい言語に対して手動でプロンプトの準備をする必要がありません。予備的な結果はGEMBA-MQMがシステムランキングのための最先端の精度を達成していることを示していますが、独自のブラックボックスGPTモデルに依存しているため、他の方法に対する改善を示すために学術的な作品で使用する際には注意を促します。
1 導入
GEMBA-MQMは、大規模言語モデル(LLM)が機械翻訳の品質を評価するためにプロンプトされる可能性があるという最近の発見に基づいています。以前の研究であるGEMBA論文(GEMBA-DA)は、各セグメントに対して単一のスコア値を評価するという直接的な方法論を採用し、詳細なスケールを指定せずに、Zero-Shotアプローチを採用し、その技術は評価において比類のない精度を示し、WMT22メトリクステストセットの他のすべての非LLMメトリクスを超えました。次に、Lu et al.(2023)(EAPrompt)は、多次元品質メトリクス(MQM)フレームワーク(Freitag et al., 2021)から個々のエラークラスを評価するためにLLMをプロンプトすることを調査しました。ここでは、各エラーは様々なエラークラス(正確性、流暢さ、スタイル、用語など)に分類され、サブクラス(正確性 > 誤訳)に分類され、重大性(重大、主要、軽微)によってマークされます。セグメントスコアは、それぞれの重大性係数(25、5、1)によって重み付けされたエラーを集約することによって計算されます。彼らのアプローチは、Few-ShotのプロンプトとCoT (Chain-of-Thought)戦略(Wei et al., 2022)を使用しましたが、私たちのGEMBA-MQMアプローチは2つの点で異なります:1)私たちはプロセスを単一ステップのプロンプトのみを使用して簡素化し、2)私たちのプロンプトは言語を超えて普遍的に適用可能であり、各言語ペアに対して手動でプロンプトの準備をする必要がありません。 Fernandes et al.(2023)による別の注目すべき努力も、EAPromptアプローチに並行して、MQMエラースパンをマークしました。対照的に、彼らのアプローチはPaLM-2モデルを使用し、プロンプトのための数ショット例をサンプリングするためにMQMアノテーションをプーリングしました。彼らの微調整実験は、トップティアモデルのシステムレベルのパフォーマンスを改善しませんでした。
2 説明
私たちの技術は、GPT-4モデルを使用して、MQMフレームワークを使用して品質エラースパンをマークするようにモデルをプロンプトする数ショット学習を採用しています。基礎となるプロンプトテンプレートは、人間のアノテーターのためのガイドラインに基づいてモデル化され、Figure1に示されています。 https://scrapbox.io/files/65ce1a3ec296a900255ce7a1.png
他の方法とは対照的に、私たちは3つの事前に決定された例(付録Aを参照)を使用し、任意の言語ペアでメソッドを使用できるようにし、言語ペア固有のMQM数ショットの例を作成する必要がないようにします。これは、Fernandes et al.(2023)がAutoMQMを2つの言語ペアを超えて評価することを妨げた元々の制限でした。私たちの決定は、パフォーマンスを向上させることを望むものではなく(ドメインおよび言語固有のプロンプトは通常それを向上させます(Moslem et al., 2023))、私たちの方法が任意の言語ペアで評価されることを保証するためでした。
3 実験
GEMBA-MQMメトリックのパフォーマンスを測定するために、私たちはWMT22メトリクス共有タスク(Freitag et al., 2022)によって提供された方法論とテストデータを使用します。これは、自動メトリクスを人間のゴールドラベルと比較して評価する年次評価をホストします。私たちは、WMT22の最高性能の参照ベースのメトリクス:MetrixX_XXL(非公開メトリクス)、COMET-22(Rei et al., 2022)、UNITE(Wan et al., 2022b)、BLEURT-20(Pu et al., 2021)、およびCOMET-20(Rei et al., 2020)と比較します。さらに、「クラシック」な文字列ベースのメトリクスBLEU(Papineni et al., 2002)およびChrF(Popovic´, 2015)とも比較します。最後に、WMT22の参照なしメトリクス:CometKIWI(Rei et al., 2022)、Unitesrc(Wan et al., 2022a)、Comet-QE(Rei et al., 2021)、MS-COMET-QE-22(Kocmi et al., 2022b)と比較します。私たちは、GEMBA-DA(Kocmi and Federmann, 2023b)およびEAPrompt(Lu et al., 2023)などの他のLLMベースの評価方法と比較し、2つのGPTモデルを使用して実験を行います:GPT-3.5-Turboとより強力なGPT-4(OpenAI, 2023)。 3.1 テストセット
我々の研究の主な評価は、MQM22(Freitag et al., 2022)およびマイクロソフト社内のデータに基づいて行われました。さらに、Metrics 2023の主催者(Freitag et al., 2023)は、カメラレディの締め切り数日前に、未確認データに対するパフォーマンスを示すブラインドテストセットの結果を発表しました。MQM22テストセットには、3つの翻訳方向の人間の判断が含まれています:英語からドイツ語へ、英語からロシア語へ、そして中国語から英語へ。テストセットには、合計54の機械翻訳システムの出力または人間の翻訳が含まれています。合計で106kのセグメントが含まれています。翻訳システムは主に、WMT22 General MT共有タスク(Kocmi et al., 2022a)の参加者からのものです。各言語ペアのソースセグメントと人間の参照翻訳には、ニュース、ソーシャル、会話、eコマースの4つの異なるテキストドメインからの約2,000文が含まれています。翻訳品質のスコアリングのゴールドスタンダードは、Freitag et al.(2021)に記述されているように、各翻訳の個々のエラーをマークする専門家によってアノテートされた人間のMQM評価に基づいています。MQM23テストセットは、今年のWMTメトリクス共有タスクのために準備されたブラインドセットであり、MQM22と同じ方法で準備されましたが、すべての参加者にとって未確認のデータであり、参加者もLLMもそれらのデータに過剰適合することができないため、最も信頼性の高い評価となります。昨年の繰り返しからの主な違いは、英語からロシア語への置き換えがヘブライ語から英語へと置き換えられたことです。また、いくつかのドメインが更新されました。詳細はKocmi et al.(2023)を参照してください。さらに、我々はKocmi et al.(2021)によって説明されたデータセットの拡張バージョンである大規模な社内テストセットでGEMBA-MQMを評価しました。このテストセットには、ソースベースの直接評価(DA, Graham et al., 2013)およびその変種DA+SQM(Kocmi et al., 2022a)で収集された人間のスコアが含まれています。このテストセットには、英語とペアになった15の高リソース言語が含まれています。具体的には、以下のものです:アラビア語、チェコ語、オランダ語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、韓国語、ポーランド語、ポルトガル語、ロシア語、簡体字中国語、スペイン語、トルコ語。
3.2 評価方法
自動メトリックの主な使用例は、ベースラインと新しいモデルを比較する場合、最先端の結果を主張する場合、異なるモデルアーキテクチャをアブレーション研究で比較する場合、または新しいモデルを本番環境にデプロイするかどうかを決定する場合のシステムランキングです。したがって、私たちはこのターゲットを具体的に測定する方法に焦点を当てます:システムレベルのペアワイズ精度(Kocmi et al., 2021)。ペアワイズ精度は、メトリックによって正しくランク付けされたシステムペアの数を、システムペアの比較の総数で割ったものとして定義されます。正式には:精度 = |sign(metric∆) == sign(human∆)| / |全システムペア| WMT22メトリクス共有タスクの結果論文で報告されたすべてのスコアを、公式のWMT22スクリプトを使用して再現しました。報告されたスコアは、WMT22メトリクスの結果論文の表11(Freitag et al., 2022)と一致します。さらに、Metrics共有タスク2023の主催者は、4つの異なるシナリオに基づいて新しいメタ評価メトリックを定義しました。それぞれが最終スコアに0.25の重みで寄与します:
システムレベルのペアワイズ精度;
システムレベルのピアソン相関;
セグメントレベルのAccuracy-t(Deutsch et al., 2023);
セグメントレベルのピアソン相関。
その動機は、メトリックを最も一般的な使用シナリオ(例えば、セグメントレベルのフィルタリングのため)で測定し、システムランキングだけでなく、測定することです。しかし、特にシステムレベルでのピアソン相関の使用に関する決定には疑問を持っています。Mathur et al.(2020)が示したように、メトリック評価に使用されるピアソンは、小さなサンプルサイズ(MQM23では、サンプルサイズが12システムと少ない)に適用されるときに敏感であり、外れ値(Osborne and Overbay, 2004; Ma et al., 2019)の影響を受けやすく、評価を実行する前にそれらを除去する必要があります。また、それは金のMQMデータとの線形相関を測定しますが、それらは必ずしも最初から線形ではありません(特に、エラーの重みが0.1、1、5、25の離散的なセグメントレベルのスコア)。人間のアノテーション行動と高い相関を持ち、セグメントレベルの評価に役立つ自動メトリックを持つことは望ましいですが、これらの特性をテストする適切な方法に関しては、さらなる研究が必要です。
4 結果
このセクションでは、3つの異なるテストセットで観察された結果について議論します:1) WMTからのMQMテストデータ、2) マイクロソフトからの社内テストデータ、および3) MQMロケール規約の影響を測定するための社内テストデータのサブセット。
4.1 WMTからのMQMテストデータの結果
表1のブラインドセットMQM23の結果は、GEMBA-MQMがシステムランキングシナリオで評価された3つの言語すべてで他の技術よりも優れていることを示しています。さらに、メタ評価シナリオで評価された際には、第3クラスターランクを達成しています。
https://scrapbox.io/files/65ce217af253600025ca52e2.png
公式の結果に加えて、MQM22テストデータでもテストを行い、表2に結果を示します。
https://scrapbox.io/files/65ce21a2cd47500024c9a144.png
主な結論は、すべてのGEMBA-MQMバリアントが従来のメトリック(COMETやMetric XXLなど)を上回っているということです。品質推定タスクに焦点を当てると、GEMBA-locale-MQM-Turboメソッドが最も類似した技術であるEAPromptをわずかに上回っていることがわかります。しかし、最終技術であるGEMBA-MQMは、GEMBA-locale-MQMメトリックよりも著しく性能が悪いことがわかりますが、唯一の違いはロケール規約エラークラスの削除です。これはテストセットによるものと考えられます。ロケール規約エラークラスを削除することにした理由については、セクション4.3で議論します。
4.2 社内テストデータの結果
表3は、GEMBA-MQM-Turboがほとんどの他のメトリックを上回り、COMETKIWI-22にのみ敗れたことを示しています。これは、ブラインドテストセットでのGPTベースの評価のいくつかの限界を示しています。アクセス制限のため、GPT-4の結果はありませんが、これはGPT-3.5 Turboモデルを上回ると仮定しています。この実験は将来の研究に残します。
4.3 ロケール規約の削除
社内データのサブセット(チェコ語とドイツ語)でGEMBA-locale-MQMのパフォーマンスを調査しているとき、私たちはこのプロンプトに関して「ロケール規約」エラークラスに重大なエラーがあることを観察しました。GPTは、翻訳に関連しないエラーに対してこのクラスを割り当てました。例えば、翻訳が問題ないにも関わらず、ユーロ通貨が言及されたときにチェコ語の文をロケール規約エラーとしてフラグしました(表4の例を参照)。これは、特定の言語に標準でない部分をマークするためにこのエラークラスを使用していたと仮定しますが、より深い結論を導くためにはさらなる調査が必要です。
表4の社内テストデータでの評価は、1.7%の精度の向上を示しました。しかし、15言語で評価すると、0.2%のわずかな劣化が観察されました。表2のMQM22では、劣化はさらに大きくなります。
15の最もリソースが豊富な言語でのエラークラスの分布を見ると、GEMBA-locale-MQMでマークされたすべてのエラーの32%がロケール規約として示されており、このエラークラスに対するGPTの誤用を示唆しています。したがって、プロンプトでこのクラスを説明する代わりに、私たちはそれを削除しました。これにより、元のロケールエラーの約半分が他のエラークラスに再割り当てされ、残りの半分はマークされませんでした。
結論として、私たちは、これが私たちが測定しようとしていたものと一致せず、GPTがクラスを使用している方法と一致しないため、このクラスを削除することにしました。したがって、私たちはGPTにこれらのエラーを他のエラーカテゴリーを使用して分類させます。内部および外部のテストデータで異なる振る舞いを示しているため、これは将来の研究でより多くの調査が必要です。
5 「ブラックボックス」LLMに関する注意
GEMBA-MQMはシステムランキングのための最先端技術であるにもかかわらず、学術研究を行う際に「ブラックボックス」LLM(GPT-4など)を使用することの固有の制限について、このセクションで議論したいと思います。
まず、GPT-4は独自のモデルであるため、いくつかの問題が生じることを指摘したいと思います。そのうちの1つは、どのトレーニングデータでトレーニングされたかわからないため、公開されたテストデータはそのトレーニングデータの一部と見なすべきであり(したがって、おそらく汚染されている)、ということです。第二に、将来にわたってモデルが利用可能であること、または将来にわたって更新されないことを保証することはできません。これは、そのようなモデルからの結果が特定のサンプリング時間にのみ関連することを意味します。Chen et al.(2023)が示したように、モデルのパフォーマンスは2023年を通じて変動し、低下しました。
これはすべての独自のLLMに影響を与えるため、私たちは公開されているモデルを使用した研究を増やすことを提唱します。たとえば、LLama 2(Touvron et al., 2023)のようなモデルです。このアプローチにより、将来の発見を「ブラックボックス」LLMと比較すると同時に、「オープン」モデルとも比較することができます。
6 結論
本論文では、翻訳品質エラーマーキングのためのGPTベースのメトリックであるGEMBA-MQMメトリックを紹介し、評価しました。この技術は、固定された3ショットプロンプト戦略を使用したGPT-4モデルの利点を活用します。予備的な結果は、システムランキングのメトリックとして使用された場合、GEMBA-MQMがCOMETやBLEURT-20などの確立されたメトリックを上回り、新たな最先端を達成することを示しています。私たちは、GPTのような独自のモデルを使用することに固有の制限を認識したいと思います。
学術コミュニティへの私たちの推奨事項は、GPTモデルの上にGEMBA-MQMを使用する際には注意することです。将来の研究では、LLama 2(Touvron et al., 2023)などの他の、よりオープンなLLMで私たちのアプローチがどのように機能するかを探求したいと考えています。公に配布されたモデル(少なくともそのバイナリ)で優れた振る舞いを確認することができれば、学術環境での技術のより広範な使用の道を開くことができます。
制限事項
GEMBA-MQMでの我々の発見と技術は翻訳品質エラーマーキングにおいて有望な進歩をもたらしますが、この研究で遭遇した制限を強調することが重要です。
- 独自のGPTモデルへの依存:GEMBA-MQMはGPT-4モデルに依存しており、その性質上独自のものです。モデルがどのデータでトレーニングされたか、または同じモデルがまだ展開されているかどうかわからないため、結果が比較可能であるとは言えません。Chen et al.(2023)が示したように、モデルのパフォーマンスは2023年を通じて変動しました。
- 高リソース言語のみ:WMTの評価は主に高リソース言語に焦点を当てているため、方法が低リソース言語でうまく機能するかどうかは結論できません。