GPTは機械翻訳にどれだけ優れてる? 論文
https://scrapbox.io/files/65aa057cb087bd0024bf84fb.png
論文情報
タイトル:How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation
発行日:2023年2月
著者:Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, Hany Hassan Awadalla
所属:Microsoft
論文を読んで感じたこと
実験対象の高リソース言語として、日本語が含まれてる。
Figure1見ると、EN->JAは、MS-Translator + GPTのハイブリッドより、GPT単独の方が精度が高いという結果になっている
GPTは、日本語のような高リソース言語で、Zero-Shotでも非常に精度の高い翻訳ができることがわかった。 概要
生成型事前訓練Transformer(GPT)モデルは、自然言語生成において顕著な能力を示していますが、機械翻訳におけるその性能は十分に調査されていません。本論文では、GPTモデルを用いた機械翻訳の包括的な評価を行い、最先端の研究や商業システムとの比較における異なるGPTモデルの品質、プロンプト戦略の効果、ドメインシフトへのロバスト性、文書レベルの翻訳に関する様々な側面をカバーしています。高リソース言語および低リソース言語を含む18の異なる翻訳方向での実験を行い、ChatGPT、GPT-3.5(text-davinci-003)、text-davinci-002の3つのGPTモデルのパフォーマンスを評価しました。結果から、GPTモデルは高リソース言語において非常に競争力のある翻訳品質を達成している一方で、低リソース言語においては限定的な能力を持っていることがわかります。また、GPTモデルを他の翻訳システムと組み合わせたハイブリッドアプローチが、翻訳品質をさらに向上させることができることも示しています。GPT翻訳の特性をさらに理解するために、包括的な分析と人間による評価を行いました。私たちの論文が、研究者や実務家にとって貴重な洞察を提供し、翻訳におけるGPTモデルの可能性と限界をより深く理解するのに役立つことを願っています。 1 緒言
自然言語処理(NLP)の最近の進歩、特に大規模な言語モデリング技術の開発は、機械翻訳だけでなく他のNLPタスクにおいても顕著な改善をもたらしています。機械翻訳を含む多様な能力を持つ大規模言語モデルの出現は、より効果的な翻訳システムの構築に新たな可能性を開いています。これらのモデルの中でも、最新の生成型事前訓練トランスフォーマー(GPT)モデル(Brown et al., 2020)は、一貫性のある文脈認識のテキストを生成する能力によって、注目を集めています。私たちは、機械翻訳におけるGPTモデルの包括的な評価を行い、その強みと限界を探求し、機械翻訳の分野で働く研究者や実務家に洞察を提供します。 GPTモデルと従来のニューラル機械翻訳(NMT)システムは、どちらもトランスフォーマーアーキテクチャに基づいていますが、いくつかの点で異なります。まず、GPTモデルはデコーダのみのモデルであり、コンテキストとソースを単一の入力として処理し、次の出力を生成するために同じパラメーターを使用します。一方、NMTモデルは通常、エンコーダデコーダアーキテクチャを持ち、ソース文をエンコーダネットワークでエンコードし、デコーダネットワークで前の出力に条件付けされたターゲット文をデコードします。次に、GPTモデルは主に単言語データで訓練されており、特に英語に強いバイアスを持っています。一方、NMTモデルは大量の精密にカリキュレートされた平行データに依存しています。第三に、多言語の文脈内能力を達成するためには、GPTモデルははるかに多くのパラメーターが必要です。私たちは、これらのアーキテクチャと訓練データの違いにもかかわらず、GPTモデルが有望な翻訳能力を示していることを観察しました。
GPTモデルが機械翻訳で有望な可能性を示しているにもかかわらず、その性能は商業および最先端の研究システムと比較して十分に調査されていません。この研究では、GPTモデルの機械翻訳における効果を系統的に評価し、その性能に焦点を当てたいと考えています。プロンプト、文書レベルの翻訳、 ドメインのロバストさ(複数のドメインに対しても翻訳精度を発揮できる頑健性)、そして従来のNMTシステムとの統合による可能な利点を調査します。
GPTモデルの翻訳における潜在能力を探るために、我々はその翻訳能力を調査するための包括的な実験を実施しました。具体的には、高リソース言語と低リソース言語、英語中心および非英語中心の方向性を含む18の言語ペアにおけるGPTモデルの機械翻訳性能を調査します。我々は3つのGPTモデル、text-davinci-002、text-davinci-003(GPT3.5)、およびChatGPTの品質を比較し、これらのモデルが翻訳能力において大きく異なることを示します。
また、我々は機械翻訳におけるGPTモデルの性能に対するプロンプト戦略の影響を探ります。我々はプロンプトの内容と形式の両方を検証し、最適な結果を得るためのベストプラクティスを特定します。さらに、GPTモデルが文書全体のコンテキストと一貫性を活用して、より正確で流暢な翻訳を生成できるため、文書レベルの翻訳を強化するという仮説を検証します。我々は、この仮説をいくつかの指標を用いて様々な言語ペアで評価します。さらに、翻訳タスクにおけるGPTモデルのクロスドメイン一般化能力を評価し、ドメインシフトに対するそのロバストさを調査します。
さらに、我々は機械翻訳におけるGPTモデルの強みと弱みについて洞察を提供し、今後の研究の方向性を示唆するために、広範な人間による評価と分析を行います。また、GPTとNMTモデルが相補的な特徴を持っているかどうかを理解するための包括的な分析を行い、二つのパラダイムの利点を組み合わせるいくつかのアイデアを提案します。最後に、翻訳以外のクロスリンガル自然言語タスクにおけるGPTモデルの有効性について触れ、その多言語能力と限界を探ります。
上記の研究課題を探るために、我々は以下のように論文を構成しています:
詳細な実験セットアップを提供します(§2)。これには使用したデータセット(§2.1)、比較に使用した機械翻訳システム(§2.2)、GPTシステム(§2.3)、および評価方法(§2.4)が含まれます。
GPTモデルの機械翻訳に関する異なる側面を調査する一連の実験を行います(§3)。これらの実験には、プロンプト選択戦略(§3.1)、GPTモデルのゼロショット翻訳能力(§3.2)、高リソース言語におけるGPTの性能(§3.3)、低リソースおよび非英語中心言語におけるGPTの性能(§3.4)、GPTによる文書レベルMT(§3.5)、ドメインシフトに対する翻訳のロバストさ(§3.6)、およびハイブリッドGPTおよびNMT翻訳(§3.7)が含まれます。
GPT翻訳の品質についての洞察を提供する人間による評価と分析を行います(§4)。
GPT翻訳の特徴をNMTと比較し、GPT翻訳の差別化側面を分析します(§5)。言語モデリングバイアスのアーティファクトを定量的に列挙する(§5.2)、様々な言語方向の翻訳特性(§5.3-§5.5)、および平行データバイアスのアーティファクト(§5.6)を分析します。
翻訳を超えたGPTモデルの多言語能力を探ります(§6)。
我々の所見をまとめ、研究の今後の方向性を示唆します(§7)。
2 実験セットアップ
2.1 データセット
我々は、包括的な評価のために多様な言語セットを横断する18の異なる翻訳方向を検討しました。評価は、高リソース言語と低リソース言語、英語中心および非英語中心の直接翻訳をカバーしています。この研究で考慮された言語には、ヨーロッパ(英語-EN、フランス語-FR、ドイツ語-DE、チェコ語-CS、アイスランド語-IS)、アジア(中国語-ZH、日本語-JA)、キリル文字(ロシア語-RU、ウクライナ語-UK)およびアフリカ(ハウサ語-HA)が含まれます。
我々は、再現性とデータ共有を促進するために、公開データセットを使用します。アイスランド語とハウサ語を除くすべての言語に対してWMT22テストセットを使用します。WMT22データセットを使用する理由は2つあります。第一に、それらは最新であり、2021年6月までに収集されたGPTモデルのトレーニングデータと重複する可能性が低いです。第二に、それらは自然なソーステキストと翻訳されたターゲットテキストを持っており、「翻訳者」テストセットの問題を避けることができます。これは、元の言語で不自然なソーステキストを持つことにより、正確な評価に影響を与える可能性があります(Zhang and Toral, 2019)。表1は、この論文で使用されたデータセットとサイズを要約しています。 https://scrapbox.io/files/65aa0607fcb24a002459fc60.png
最新のデータセットに注目しています。これは、古いデータセットがGPTモデルのトレーニングデータに影響を与えている可能性があるためです。この論文でのすべてのデータと分析を公開し、さらなる研究を促進します。
2.2 ニューラル機械翻訳システム
この研究では、GPTシステムの性能を最先端の研究(SoTA)および商業システムと比較します。各言語ペアにおけるWMT評価キャンペーンで最も高い評価を受けたシステム(WMT-Best)を使用し、比較の基準としています。WMT-Bestシステムは、最高ランクの商業および研究システムの混合です。評価キャンペーンによって提供されたシステム出力を使用します。表1は、各言語ペアにおける最上位のシステムのリストを示しています。また、Azure Cognitive Services上で公開されている公共APIを通じてMicrosoft Translatorも利用します。 2.3 GPTシステム
最新の最大のGPTモデルの3つのバリアントを評価します。これらのモデルはOpenAIのドキュメントでリストされています。これらのモデルは以下の通りです。
・text-davinci-002 - InstructGPTモデルで、人間の比較に基づいてトレーニングされた報酬モデルを利用した強化学習を使用しています。 ・text-davinci-003 - text-davinci-002の改良版。
・ChatGPT - 前述の2つのモデルと似ており、会話目的に特化して最適化されたモデル。
すべてのGPTモデルは、Microsoft Azure OpenAIサービスのAPIを通じてアクセスされています。
2.4 評価方法
文レベル評価
MTメトリクス共有タスク(Freitag et al., 2022)は、機械翻訳評価において、人間の評価と高い相関を示し、ドメインシフトに対しても耐性を持つことが証明されているニューラルネットワークベースのメトリクスの使用を推奨しています。これらの推奨に従い、共有タスクで最上位にランクされたUnbabelのメトリクスを使用します。具体的には、COMET-22(wmt22-COMET-da)を使用します。これは、直接評価(DA)、文レベルのスコア、およびMultidimensional Quality Metrics(MQM)エラー注釈からの単語レベルタグを組み合わせた参照ベースのメトリックです。参照なしの品質推定のためには、COMETkiwi(wmt22-COMETkiwi-da)を採用しています。また、完全性のためにSacreBLEU11およびChrf(Popovic´, 2015)の結果も報告しますが、これらのメトリクスは分析に広く使用されていないことに留意してください。
文書レベル評価
GPTを使用した文書レベルの翻訳の実験では、システムが生成する可能性のある一対一でない文レベルのマッピングに対応できるメトリクスが不足しているため、パフォーマンスを評価する上で課題があります。この課題に対処するために、文書レベルの評価に適したCOMETメトリクスを適応しました。適応には、文書を複数のセグメントに分割し、重複するスライディングウィンドウでこれらのセグメントの平均スコアを計算し、2つの文書を比較するというものです。この改変されたメトリックを評価全体を通してDoc-COMETkiwiとして参照します。
この単純な変更には、純粋な文レベル評価よりも3つの明確な設計上の利点があります。まず、各文がそのコンテキスト内で評価されることを可能にします。次に、スライディングウィンドウの重複する性質により、各文が複数のコンテキストで評価されることを可能にします。最後に、長い静的なウィンドウ上での品質評価を妨げる可能性のある評価モデルの限られたコンテキストウィンドウを避けます。これが文書レベルの翻訳を評価するための最適なメトリックであるとは主張していませんが、一対一の文マッピングの制限を克服し、文レベルの表現よりも曖昧なコンテキストでの翻訳品質をよりよく捉える可能性があります。より堅牢な文書レベルのメトリックの開発が依然として不可欠であると主張します。
機械翻訳のパフォーマンスを評価するための現在のメトリクスは、GPTモデルのパフォーマンスを測定するためには不十分かもしれません。これらのモデルのユニークな特性を考慮に入れた新しいメトリクスの開発が必要かもしれません。
人間による評価と分析
我々は、プロフェッショナルな注釈者によって提供された注釈を使用し、ソースベースの文レベルの対照的な直接評価 + スカラー品質メトリック(対照的DA+SQM; Akhbardeh et al. 2021, Kocmi et al. 2022a)を使用して人間による評価(§4)を実施します。また、翻訳のさまざまな特徴に関する徹底的な分析を行います(§5)。
3 実験
このセクションでは、様々な実験を紹介します。§3.1では、いくつかのプロンプト選択戦略について説明します。§3.2では、ゼロショット設定での様々なGPTモデルを評価します。§3.3では、高リソース言語ペアの結果を示し、続いて§3.4では低リソースおよび非英語ペアの結果を示します。§3.5では、文書翻訳の結果を提供します。§3.6では、ドメインシフトの下でのGPTモデルのロバスト性を検証します。最後に、§3.7では、GPTとNMTモデルの利点を組み合わせる可能性について議論します。
3.1 プロンプト選択戦略
LLMの性能は、テスト入力に加えて少数のラベル付き例(プロンプト)を提供することで、ICL(コンテキスト内学習: In Context Learning)を通じて向上させることができることが示されています(GPT-3論文)。このFew-Shotパラダイムは、複数の自然言語処理(NLP)タスクで強力な性能を示しています。また、機械翻訳(MT)における文脈内学習に関する最近の研究もあり、ショット選択の方法は様々で、結果もまちまちです。最近では、Zhang et al.(2023)がGLM-130Bを使用し、MTのパフォーマンスとショット選択の間には一貫性があるが、ランダムと比較してやや低い相関関係があることを示しました。彼らは、パフォーマンスと異なるレベルの相関を示すさまざまな特徴を使用しました。同様の精神で、Vilar et al.(2022)はPaLM-540Bモデルで異なるプロンプト選択スキームを使用し、ショット選択がランダムより必ずしも良いわけではないが、高品質のショットの使用の重要性を指摘しています。同じ方向で、Agrawal et al.(2022)ははるかに小さいモデルXGLM-7.5Bと複数の選択基準を使用しています。彼らは、検索とタスクメトリクスの組み合わせが、異なる翻訳方向において一貫してランダムベースラインより優れていることを示しました。 この論文では、品質と関連性の2つの次元に沿って、プロンプト選択戦略を探ります。Few-Shot例を選択するためのプールは、各方向のクリーンなWMTトレーニングデータです。これは、言語識別と長さ比を使用してフルトレーニングデータをフィルタリングすることで得られます。フルおよびクリーンなトレーニングデータのサイズは、各方向について表12に示されています。 https://scrapbox.io/files/65aa0a0c00a86f00235f452e.png
テストセットに関する情報の小さな漏洩の可能性を避けるために、WMT共有タスクの開発データをショット選択には使用しません。いずれの場合も、0、1、5ショットでのパフォーマンスをテストします。私たちの予備実験では、5ショットを超えると有意な改善が得られないことがわかりました。以下に、品質と関連性に基づいてショットを選択する方法を示します。 品質
高品質なショットを確保するために、私たちはトレーニングデータをLaBSE(Feng et al., 2020)を使用してソートします。私たちは、フルデータとは対照的に、上位100万ペアからランダムに選ばれた高品質なショットを考慮します。また、50トークン以上の長い文を選択することも有用であることがわかりました。 関連性
入力文に近い関連性のあるショットを考慮します。予備実験に基づいて、LaBSE埋め込み間のコサイン距離を近さの尺度として使用します。関連するペアは常に高品質なもの(LaBSEスコア付きトレーニングデータの上位100万ペア)から選択されます。計算効率のために、2段階のアプローチを採用します。まず、入力テキストを使用して上位64ペアを検索するためにエラスティックサーチを適用し、次にLaBSE距離に基づいて上位1または5ショットを返します。 結果では、フルランダムをRR(ランダム)として参照し、高品質はQR(品質ランダム)として参照されます。関連性によって選択された高品質のショットはQS(品質選択)として参照されます。
3.2 GPTモデルのゼロショット翻訳能力
3つのGPTモデルの一般的なゼロショット翻訳能力を、8つの異なる翻訳方向で4つの言語ペアで比較しました。選択された言語は、代表性をバランス良く考慮して選ばれました。言語は以下の通りです:1)ドイツ語は、GPTトレーニングデータで最も代表されている非英語言語の一つ、2)ロシア語は、大規模な非ラテン文字言語、3)中国語は、トレーニングデータの大部分の言語とは異なる文字を持つ大規模言語、4)英語中心でない使用事例としてのフランス語-ドイツ語ペアです。
この実験では、3つのGPTモデル(text-davinci-002、text-davinci-003、ChatGPT)の性能を、WMT22で上位にランクされたシステムと比較しました。(表2) 驚くべきことに、text-davinci-002は他の2つのGPTモデルに比べてすべての言語ペアで性能が低くなっています。一方、text-davinci-003はこの評価でのすべての言語において明確に優れた翻訳性能を示しました。そのゼロショット性能は、最も優れたWMT DE-ENシステムと比較して競争力があり、最も優れたZH-EN WMTシステムを上回りました。
https://scrapbox.io/files/65aa0ce38e122e002415f283.png
ChatGPTはDE-EN言語ペアで強力なパフォーマンスを示し、英語への翻訳およびフランス語-ドイツ語ペアでtext-davinci-003と同様に動作しました。一方、英語から他の言語への翻訳では、text-davinci-003が他の2つのGPTモデルよりも優れたパフォーマンスを示しました。英語中心でないフランス語とドイツ語間の翻訳は、GPTモデルのトレーニングデータの大部分が英語中心であるにもかかわらず、最先端のシステムと驚くほど競争力がありました。
COMETkiwiとCOMET-22は関連する結果を示しましたが、両方の語彙メトリクス(BLEUとChrF)はGPTモデルで一貫して低下しています。これは、PALM-540Bモデルに関する(Vilar et al., 2022)の同様の発見と一致しています。より深い結果を理解するために、我々は人間による評価とより徹底的な分析を行いました。
これらの結果から、3つのGPTモデルのバリアントが異なる特性を示していることがわかります。しかし、これらの違いの性質と範囲は不明瞭なままであり、モデル、トレーニングデータ、トレーニング方法に関するより多くの情報の可用性に応じて、さらなる調査が必要です。ゼロショット設定で達成されたtext-davinci-003の優れたパフォーマンスは、少数ショットの文脈内学習とショット選択戦略の効果に関するさらなる調査を促します。これらの質問について、以下のセクションでさらに調査します。
3.3 高リソース言語におけるGPTのパフォーマンス
前のセクションの結果を踏まえ、18の言語ペアの範囲を広げてtext-davinci-003モデルを評価し、WMT SoTAシステムに加えて商業システム(Microsoft Translator)との比較を行いました。一貫性を保つために、以降の結果では、特に明示されていない限り、text-davinci-003モデルを指すために「GPT」という用語を使用します。
さまざまなショット選択戦略を実験しました:ゼロショット、ランダム(RR)、品質(QR)および関連性選択(QS)プロンプト。1ショットと5ショットの結果を、最良のWMTシステムおよびMS-Translatorと共に報告します。
表3は、WMTテストセットの高リソース言語でのGPT text-davinci-003の少数ショット設定でのパフォーマンスを示しています。参照および参照なしのCOMETスコアで、モデルは英語への翻訳ですべての言語に対して印象的なゼロショット結果を達成しました。しかし、少数ショットの設定はゼロショット設定よりも大きな改善をもたらしませんでした。GPTはDE-EN、JA-EN、ZH-ENの言語ペアでWMT-BestおよびMS-Translatorシステムを上回り、他の3つの言語ペアでは最良のシステムに匹敵しました。一方、英語から他の言語への翻訳では、少数ショットの設定が一貫してゼロショット設定よりも改善され、ほとんどの良い結果は単一の高品質ショットから得られました。GPTはEN-JAおよびEN-ZHの言語ペアでWMT-BestおよびMS-Translatorシステムを上回りました。
https://scrapbox.io/files/65aa3d95044cba00246214fa.png
3つの言語(ドイツ語、ロシア語、中国語)に関連性スコア(QS)を持つ高品質ショットを実験しましたが、品質ショットだけよりも改善は観察されませんでした。この結果は、特に英語からの翻訳において、少数の高品質ショットの重要性を強調しています。この挙動の違いは、文脈内学習内のデモンストレーションの重要な役割が出力空間の仕様を提供することにあるという観察と一致しています(Min et al., 2022; Anonymous, 2023a)。特に英語から他の言語への翻訳では、より密度の高い文脈内学習信号が好まれます。「§3.2のゼロショット結果と同様に、すべてのGPTモデルと設定において、語彙指標は一貫して劣化していることが観察されます。
3.4 GPTが低リソース言語と非英語中心の言語でのパフォーマンスについて
アイスランド語とハウサ語の低リソース言語およびフランス語とドイツ語の直接翻訳言語として実験を行い、低リソース言語と非英語中心言語を評価しました。表4に結果を示します。フューショットセットアップでは、特に英語からの翻訳時にわずかな利得が得られました。高リソース言語ペアの場合と同様に、ほとんどの利得は単一の高品質ショットから得られました。低リソース言語のシステムはWMTベストシステムを超えることはありませんでした。DE-FRおよびFR-DE言語ペアでは、単一ショットセットアップがゼロショットセットアップを大きく上回る顕著な結果を示しました。これは、英語から他の言語への翻訳の以前の発見と一致しており、直接翻訳においても、より密な文脈内シグナルが重要であり、モデルがゼロショット動作よりも正しい言語で生成するのを可能にします。両方の直接システムは、COMETスコアの観点から商業対応物を上回りますが、COMET-22参照ベースの指標でWMTベストシステムにわずかに遅れをとっています。
高リソース言語ペアと同様に、両方の語彙指標(BLEUおよびChrF)は、顕著かつ一貫した劣化を示しました。これについてさらに洞察を得るために、人間による評価を行い、§4および§5で議論されているように、より深い分析を行いました。 3.5 GPTによる文書レベルMT
このセクションでは、GPTを文書レベルの機械翻訳に応用することを探ります。以前のMTに関する研究は主に文レベルの翻訳に集中しており、トランスファーラーニングのための文書翻訳についてはZhang et al.(2023)によって簡単に言及されているだけです。しかし、他方で、文書翻訳はトランスフォーマーモデルにとってかなりの注目を集めており、追加の文脈の効果については結論が出ていません。Sun et al.(2020)は、以前の研究のいくつかに異議を唱え、文書の長さを変える単純なトレーニングの修正が、文書から文書への翻訳のための標準トランスフォーマーアーキテクチャのパフォーマンスを大幅に向上させることを示しています。
私たちは、GPTが大きな文脈で訓練されているため、文書から文書への翻訳において優れていると仮定しています。さらに、文書全体を翻訳することで、API呼び出しの数を減らし、計算効率とレイテンシーを向上させることができます。私たちは、文書翻訳の改善がその可能性を捉えるためにより良い指標が必要であると主張しています。したがって、このセクションでは、§2.4で説明されているdoc-BLEU(Liu et al.、2020)およびdoc-COMET指標を使用して結果を報告します。
文書レベルの翻訳の評価
文書レベルの翻訳は必ずしも文レベルの整合性を保つわけではありません。私たちは、GPTに文レベルの整合性を保つように促すために、プロンプトで文の分離を強調しています。私たちのプロンプトテンプレートは、付録の図18で見ることができます。
https://scrapbox.io/files/65aa4335a5a2f70025d619bb.png
しかし、テストセットのいくつかの文書について、ソースとの文レベルの整合性を復元する必要があることがわかりました。すべてのケースで、私たちは復元する必要がある2つのタイプの不一致を見つけます。まず、ソースで2行にわたって書かれ、その翻訳が1行である文。その場合、新しい行の改行の位置をソースの文の新しい行の改行と一致させるために、新しい行の改行を挿入します。次に、スキップされた文。その場合、文書の最後に空行を置く代わりに、スキップされた文の場所に空行を置きます。
私たちは、COMET-22および私たちが使用しているCOMETkiwiモデルのような主に文レベルの評価のために開発された指標を計算するために、文レベルの整合性を復元する必要があります。また、(Liu et al.、2020)に従って、文書レベルで計算されたSacreBLEUを報告します。ニューラルネットワークベースの指標については、§2.4で説明されているように、文書レベルの評価のためにCOMETkiwiモデルを拡張します。
実験1
私たちは、ゼロショットMTに関してNews Commentaryデータセットを使用した一連の実験を行い、ウィンドウ長を1(文レベル)から2の14乗まで変化させます。表5は、ウィンドウサイズを増加させると、すべての指標で改善が見られることを示しています。しかし、語彙指標(BLEUおよびChrF)での利得は、ニューラル指標(COMET-22およびCOMETkiwi)よりも大きいです。文書ベースの指標(doc-BLEUおよびdoc-COMETkiwi)も、文レベルの指標と同様の改善を示しています。特筆すべきは、ウィンドウサイズが大きくなると、パフォーマンスがMSTranslatorモデルを上回り、WMT-Bestシステムに近づくことです。これは、Sun et al.(2020)による従来のMTモデルの発見と一致しています。また、表は各ウィンドウサイズに対する合計リクエスト数も示しています。ウィンドウサイズが増加するとリクエスト数が劇的に減少する一方、パフォーマンスは指標によっては大幅に改善されるか、比較的安定していることが観察されます。したがって、この文書レベルのセットアップは、品質を犠牲にすることなく高い効率を達成しています。
https://scrapbox.io/files/65aa43da015d3700248e4088.png
実験2
第2の実験セットは、文書設定におけるフューショット翻訳を調査します。文レベルの実験に続いて、私たちは5ショットの使用に焦点を当てます。また、文書レベルの注釈が付いているNews Commentaryデータセットを使用します。表6は結果をまとめています。最初の2行は、参考のために最高のWMT22およびMSTranslatorの結果を示しています。
以下の行はGPT-XX-YYと名付けられ、XXは翻訳の範囲(文または文書)を表し、YYは5ショットのソースを表します(QR、DR、DF、またはDH)。GPT-Sent-QRおよびGPT-Sent-DRの行は、文レベルの翻訳の結果を示しています。前者は表3からの同じ品質ベースのショットを使用し、後者はテストデータを除く文書セットからランダムに選択された5ショットを使用します。表のDocとして言及されている文書翻訳は、以下の行で10文のウィンドウで行われます。GPT-Doc-QRおよびGPT-Doc-DRの行は、文レベルのケースと同じショットを使用します。GPT-Doc-DFの行では、文書データプールからランダムな文書を選択し、文書の最初の5文をショットとして使用します(つまり、文書ファーストDF)。GPT-Doc-DHの行では、ショットで使用するためにGPT出力を履歴に保存します。最初の文書を0ショットで翻訳し、その後の文書を5ショットで翻訳します。ショットの選択には、以前に翻訳された文書からランダムな文書を選び、最初の5文をショットとして使用します(つまり、文書履歴DH)。結果は、文書翻訳が指標全体で文レベルの翻訳を上回ることを示しています。しかし、フューショットは文レベルの翻訳に一貫した利得をもたらす一方で、文書翻訳にはそうではありません。これは、文書翻訳が十分な文脈を提供し、フューショットを冗長にしていると説明できるかもしれません。また、表からDoc-COMETKiwiが文レベルの指標よりも大きな利得を示していることが観察されますが、これはさらに詳細な分析が必要かもしれません。
3.6 ドメインシフトに対する堅牢性
私たちは、ドメインシフトがドイツ語と中国語の両方のGPTモデルのパフォーマンスにどのように影響するかを調べるためにWMTデータセットを使用します。WMT22データセットは4つのドメインをカバーしています:会話、ニュース、eコマース、ソーシャル。表7は、WMTテストセットの4つのドメインのスコアを示しています。
GPTは、DE-EN、ZH-EN、EN-ZHの会話ドメインで、COMETおよび語彙スコア(BLEUおよびChrF)の両方によって示される顕著な改善を達成しています。これは、GPTモデルで語彙スコアが一貫して劣化するという以前の観察とは対照的です。
GPTは、ニュースドメインにおいて、COMETスコアによると他のシステムと同等にパフォーマンスを発揮します。DE-ENでは他のシステムを上回り、EN-DEではわずかに遅れを取っています。ZH-ENとEN-ZHでは、GPTはMSTranslatorを上回りますが、WMT-Bestシステムにはわずかに及ばないです。しかし、ZH-ENおよびEN-DEの両方でBLEU指標においてGPTは大幅に低いスコアを記録しています。
GPTは、eコマースドメインでZH-ENにおいて両システムを明らかに上回り、DE-ENではWMT-Bestと同等です。他の方向ではわずかに遅れをとっています。このドメインでは、ZH-ENがCOMET指標で大幅に優れているにもかかわらず、すべての方向でBLEU指標のスコアが一貫して低いことが観察されます。
GPTは、ソーシャルドメインでDE-ENにおいて両システムを上回ります。しかし、ZH-ENおよびEN-ZHでは、GPTはCOMETkiwiでのみそれらを上回り、すべての方向でBLEUスコアが低く、ZH-ENではCOMETkiwiで大幅な利得があるにもかかわらず、顕著な違いがあります。
この研究結果は、GPTが異なる領域や言語に対して強固な翻訳能力を持っていることを示しています。DE-EN、ZH-EN、EN-ZHの全領域で良好なパフォーマンスを発揮しています。しかし、ニュースとソーシャルドメインにおいてZH-ENとDE-ENの語彙指標に差異が見られました。これらの言語におけるGPTの高性能にもかかわらずです。さらに詳しく調査するために、ZH-ENの結果を詳細に調べました。中国の報道機関からのニュースは、特にニュースの前置き部分で、よりテンプレート的なスタイルを取っていることが分かりました。類似のデータに大量にトレーニングされたNMTシステムでは、同じパターンを再現することが容易です。例えば、WMT-Bestは31.3 BLEUを記録しています。しかし、より大きく多様なデータにトレーニングされた一般的な商業規模のシステムでは、同じ正確なパターンを生産することが難しく、その結果、MS-Translatorは28.2 BLEUを記録しています。英語を主にトレーニングされたGPTでは、語彙の一致を得ることが難しく、主に英語のニューススタイルを生産しており、23.3 BLEUを記録しています。しかし、COMET22は同じ参照を使用しており、すべてのシステムがほぼ同じレベルであることを示しています。これは、ドメインを超えたニューラル指標の堅牢性(Freitag et al., 2022)と、GPTが多様なドメインを処理する能力、そして平行データのバイアスに対する堅牢性を確認しています。これについては、第5節でさらに詳しく探求します。そこでは、入力が平行データのノイズの部分と共鳴する場合、GPTは一般的により良いパフォーマンスを発揮することを示します。
3.7 ハイブリッドGPTとNMT翻訳
さまざまな言語でのGPTの強力なパフォーマンスを活用する可能性を探るために、NMTとGPTシステムの強みを組み合わせたいくつかのハイブリッドアプローチを提案し評価しました。基本的な考え方は、Microsoft Translator(MS-Translator)システムを主要な翻訳システムとして使用し、MS-Translatorの品質が満足できない場合にGPTをフォールバックシステムとして使用することです。品質評価モデルとしてCOMETkiwiを使用し、パフォーマンス評価指標としてCOMET-22を使用します。まず、COMETkiwiによってどちらかのシステムから最良の翻訳を選択することで上限を設定します。これを「Max-Routing」アプローチと呼びます。次に、より実用的なアプローチを実験します。ここでは、MS-TranslatorのCOMETkiwiスコアが事前に定義された閾値を下回る場合にのみGPTを使用します。この実験では、閾値をMS-TranslatorのCOMETkiwiスコアの50パーセンタイルに設定しました。つまり、MS-TranslatorのCOMETkiwiスコアの中央値よりも低いCOMETkiwiスコアを持つ翻訳に対してGPTを使用することになります。これは、過去の翻訳リクエストから容易に推定できます。
図1は、12の言語ペアにおける実験結果を示しています。まず、すべての言語ペアで「ハイブリッドMax-Routing」アプローチが一貫して最も高いCOMET22スコアを達成していることがわかります。これは、個々のシステムを上回っています。「ハイブリッドMax-Routing」は、GPTのトップパフォーマンス言語ではないEN-UK言語ペアで最大1.6 Comet-22ポイントの増加を達成しています。これは、NMTとGPTシステムの強みを組み合わせることで、翻訳品質が大幅に向上する可能性があることを示しています。
https://scrapbox.io/files/65aa44ec436b44002379477a.png
次に、個々のシステムのパフォーマンスを比較します。一般的に、MS-Translatorはほとんどの言語ペアでGPTよりも高いスコアを達成しています。これは、MS-Translatorが翻訳タスク用に特別に最適化されたNMTシステムであることを考えると期待される結果です。しかし、GPTはDE-EN、EN-JA、EN-ZHなどの特定の言語ペアでMS-Translatorを上回っています。これは、主要システムの品質が不十分な場合にGPTが価値あるフォールバックシステムになることを示唆しています。
また、2つのハイブリッドアプローチのパフォーマンスも比較します。「ハイブリッドMax-Routing」アプローチは、ほとんどの言語ペアで「ハイブリッドThreshold」アプローチよりもわずかに高いスコアを達成しています。これは、MS-Translatorの品質が特定の閾値を下回った場合にのみGPTにルーティングすることが常に最適な戦略ではない可能性を示しています。しかし、「ハイブリッドThreshold」アプローチは、すべての言語ペアで上限に匹敵する結果を達成し、インスタンスの50%でのみGPTを使用しています。これは、計算リソースが限られているシナリオでより実用的なアプローチであることを示唆しています。
図2は、ハイブリッドアプローチが、すべての言語と方向でショット選択よりも大きく一貫した改善を達成していることを示しています。図3は、高性能なDE-ENおよびEN-DEシステムに焦点を当てています。ハイブリッドシステムは、5ショット設定でDE-ENでのみそれらを上回るGPTシステムを含め、両方の方向でWMT-BestおよびMS-Translatorシステムを上回っています。
https://scrapbox.io/files/65aa4577a409730023c8d3fe.png
要約すると、私たちの実験は、NMTとGPTシステムを組み合わせることで、機械翻訳の品質を向上させる可能性を示しています。結果は、GPTをフォールバックシステムとして使用するハイブリッドアプローチが、個々のシステムよりも高いパフォーマンスを達成できることを示唆しています。将来の研究では、両システムの強みを活用し、ハイブリッドアプローチを最適化するより進んだ技術を探求することができます。
4 人間による評価と分析
ソースベースの文レベルの対照的な直接評価+スカラー品質指標(対照的なDA+SQM;Akhbardeh et al. 2021, Kocmi et al. 2022a)を使用して、表1のWMT-Bestシステムと表3に示される5ショットQRのGPTに対する人間による評価を行いました。各言語ペアについて、425の非同一翻訳項目ペアをランダムにサンプリングし、各言語ペアごとに5人の専門的な翻訳エキスパートによって対照的なDA+SQM注釈方法で注釈を付けます。図4および図5は、集計された人間および対応するCOMETkiwiスコアを報告しています。驚くべきことに、GPTはCS-EN、ZH-EN、EN-ZH、DE-FRでBest-WMTシステムを上回り、多くの高リソース言語で同等の結果を達成しています。一方、低リソース言語であるハウサ語とアイスランド語は大幅に遅れをとっています。スコアの完全な詳細は付録の表13に記載されています。
人間による評価結果はCOMETkiwi結果と高い一貫性があります。これは、MT全般、特にこのモデル群を評価するためのニューラル参照なし指標の重要性を強調しています。以前の結果で見たように、すべての語彙指標はGPTの強力なパフォーマンスを捉えることができず、語彙と参照のバイアスを示しています。MT全般における品質評価がより重要になっているとはいえ、COMETkiwiがGPTモデルだけでなくNMTモデルでもうまく機能することを知るのは心強いです。さらに、図6に示されているように、高いパフォーマンスを示すGPT言語ペアは、人間による評価結果およびCOMETkiwiスコアの両方でより高い勝率を示しています。
英語-日本語および日本語-英語の方向で人間によって評価されたGPT翻訳の手動分析を行い、その強みと弱みを特定しました。付録の表14では、GPTとWMTの出力例とともに観察された特徴のいくつかを紹介しています。
https://scrapbox.io/files/65aa4835ce7ba10024498051.png
特筆すべき特徴として、GPTは誤った、短い、または口語的なソース文に対してWMTよりも優れた堅牢なパフォーマンスを発揮します。GPTはスペルミスや閉じられていない引用符を含む文を処理し、意味情報を省略せずに翻訳を生成できることがわかりました。さらに、GPTは部分的または不完全な口語ソース文に対して合理的な翻訳を生成することができますが、WMT-Bestはしばしば内容を追加したり省略したりします。しかし、GPTは一般的ではないまたは複雑な表現を含む文に対して不自然な翻訳を生成する傾向があります。
5 GPT翻訳の特徴
このセクションでは、GPTから得られた翻訳の特性を包括的に分析しようとします。ここでの目的は、GPT翻訳をそのNMT対応物とより明確に区別することです。
5.1 GPT翻訳の位置付け
我々は、LLM(Large Language Models)による翻訳の計算がNMT(Neural Machine Translation)モデルによる同じ計算と異なる可能性がある2つの重要なバイアスを提案しています。それらは、平行データバイアスと言語モデリングバイアスです。
平行データバイアス:通常はウェブから収集された(そしてノイズが多い)平行データでトレーニングされるNMTモデルと比較して、GPTなどのLLMは明確な翻訳タスクの監督信号なしに、単言語データのみでトレーニングされます。これは、私たちが注目するタスクである翻訳に活用される発生する計算能力の性質に興味深い影響を及ぼします。まず、平行データを使用しないことは、LLMが平行データに関連するノイズ(例えば、ノイズが多い/典型的でない(Raunak et al., 2021)や低品質のサンプル(Raunak and Menezes, 2022)の暗記、および平行データにおける特定の言語特性への偏向(Garcia et al., 2023)に対する保護を意味する可能性があります。これらの平行データバイアスは、平行データ内の不正確なトークンペアの過剰性に起因する物理単位や通貨の翻訳など、長尾のエラーの形で現れる可能性があります。一方で、タスクに対する明確な監督信号の欠如は、LLMに基づく翻訳が、明確な教師強制監督でトレーニングされたNMTモデルほどソースへの忠実さなどの翻訳の望ましい特性を追跡しない可能性も意味しています(Anonymous, 2023b)。
言語モデリングバイアス:インコンテキスト学習の印象的なパフォーマンスにもかかわらず、LLMの振る舞いを望ましいタスクの仕様に明示的に従うように制約することは重要な問題です。インコンテキスト学習の分析により、LLMの暗黙のゼロショット性能が、インコンテキスト学習内のデモンストレーションで観察されるゼロショット性能よりも高い可能性があることが明らかになりました。これらのデモンストレーション自体は限定的な学習信号しか提供していない(Min et al., 2022; Kojima et al., 2022; Anonymous, 2023a)。これらの結果から翻訳に直接関連することは、インコンテキスト学習のために使用されるデモンストレーションが、適切性のコストでより高い流暢性を好む可能性のある言語モデリングの基礎的な計算バイアスを打ち消すことに失敗する可能性があることです。このような言語モデリングバイアスは、翻訳において、忠実なクロスリンガル表現から逸脱する可能性のある望ましくないアーティファクト(例えば、句読点の挿入、頭字語の拡張、世界知識の挿入など)も導入する可能性があります。
次のサブセクションでは、GPT翻訳の細かい特徴を列挙するための特性を提案します。これらの尺度は、言語モデリングバイアスと平行データバイアスの間接的な測定を提供するように設計されており、NMTシステムからの翻訳とGPT翻訳をより良く区別することができるでしょう。まず、言語モデリングバイアスに関連するアーティファクトを引き出すために設計された測定について議論します。
5.2 言語モデリングバイアスアーティファクト
我々は、伝統的なNMTシステムとGPTから得られる翻訳の違いを列挙するために、テストセットで5つの測定を提案し使用しています。以下に、これらの特性とそれらを定量化するために使用されるアルゴリズム(現象の対応する例示的な例は表8に提示されています)を説明します:
1. 翻訳の非単調性(NM):翻訳がソース文にどれだけ密接に追従しているかを測定します。より意訳的または文字通りでない翻訳は、ソース単語の順序の密接な追跡から逸脱する可能性が高いです(言語ペア全体で)。我々は、非単調性尺度として対角線からの逸脱を計算するSchioppa et al.(2021)によって提案された非単調性メトリックを使用します。この測定は、翻訳の非文字通り性と相関することが示されているアライメントの交差の正規化測定としても解釈できます(Schaeffer and Carl, 2014)。この測定は、Anonymous(2023b)による翻訳の文字通り性の調査にも使用されています。
2. 翻訳の流暢性(TF):我々は、独立してトレーニングされた強力な言語モデル(「gpt2-large」、Radford et al.(2019))を使用して翻訳の流暢性を測定します。この測定はX-E方向に制限されており、GPT-2は英語のテキストのみでトレーニングされているためです(Radford et al., 2019)。
3. 句読点の挿入(PI):言語モデリングバイアスは、他のものと対照的に文の完了の一つのモードを好むかもしれません。これは、典型的な文末記号(コンマ、ピリオド、感嘆符)で終わらないような不完全な入力の存在において自身を明らかにする可能性があります。
4. ソースの不一致単語(USW):ソースと出力翻訳に対して得られた単語から単語へのアライメントで、アライメントされていないソースの単語数を測定します。品質がコントロールされている場合、より意訳的な翻訳はソース文の単語と一致しない単語を多く含む可能性があります。この測定は、Anonymous (2023b) によって翻訳の文字通り性の測定として使用され、私たちはそれを同様に翻訳でドロップされるコンテンツの測定として使用します - ソース文の未翻訳の単語やフレーズは出力でアライメントが見つからない可能性が高いです。単語から単語へのアライメントの取得には、多言語bertベースのアライナー(Devlin et al., 2019; Dou and Neubig, 2021)を使用します。
5. 翻訳の不一致単語(UTW):前の測定と同じ単語から単語へのアライメントを使用して、翻訳における不一致の単語数を測定します。これは、ソースに支持がない単語の存在を示しており、入力に基づかない翻訳への潜在的な挿入の測定として含まれています。
これらの特性に関する測定を、調査中のすべての言語ペアのテストセットで収集します。MS TranslatorとGPTを比較しています。次のセクションで結果を報告し、翻訳方向別にグループ化した分析を提示します。
5.3 X-E翻訳の特徴
図7、8、9、10、11は、X-E言語ペアのためのGPT翻訳とMS Translatorの比較を示しています。図7は、GPT翻訳がより低いパープレキシティを得ていることを示し、それによりより高い流暢性を示しています。図8は、GPT翻訳がMS Translatorよりもはるかに高い頻度で句読点挿入の問題に悩まされていることを示しています。これは、入力でサポートされていない形式が整った文を生成することを好む言語モデリングバイアスに起因すると考えられます。図9は、GPT翻訳が8つの言語ペア中7つでわずかに高い数のアライメントされていないソース単語を発生させていることを示しています。より多くのアライメントされていないソース単語は、翻訳の中でより高い意訳性または不十分性(ドロップされたまたは挿入されたコンテンツ)の存在を意味する可能性があります。図10は、GPT翻訳が潜在的な挿入においてほぼ同様に適切であることを示唆する、ほぼ同じ数のアライメントされていないターゲット単語を発生させていることを示しています。別の測定である図11は、GPT翻訳がそのNMT対応物よりもより非単調であることを示しています。
5.4 E-X翻訳の特徴
図12、13、14、15は、E-X言語ペアのためのGPT翻訳とMS Translatorの比較を示しています。図12は、X-E翻訳と同様に、GPT E-X翻訳も句読点挿入の頻度が高いことを示しています。ただし、差の大きさはX-E翻訳よりも小さく、これらの言語に対する言語モデリングバイアスが弱いことを示唆しています。図13は、一般的に、GPT翻訳がそのNMT対応物よりもアライメントされていないソース単語の数が多いことを示しています。図14は、GPT翻訳のアライメントされていない翻訳単語の数がMS Translatorと大きく変わらないことを示しています。同様に、翻訳の非単調性を比較する図15は、集計傾向を示しません。したがって、E-X言語ペアの翻訳特性は、検討中の個々の言語ペアに大きく依存していることがわかります。
5.5 X-Y翻訳の特徴
表9は、De-FrおよびFr-De翻訳方向のための5つの測定の結果を報告しています。通常、非英語中心の翻訳はピボットを通じて行われるため、直接翻訳ペアの結果はX-EおよびE-Xの場合とはかなり異なります。したがって、流暢性(F)、アライメントされていないソース単語(USW)、アライメントされていない翻訳単語(UTW)、翻訳の非単調性(NM)の測定に対する傾向は、GPT翻訳のより高い意訳性を示す確固たる証拠を示していません。ただし、GPT翻訳はMS Translatorシステムよりも多くの句読点を挿入しています。
5.6 平行データバイアスアーティファクト
平行データバイアスを示すために、我々は低品質の入力に対する翻訳を分析しました。この実験の背後にある直感は、低品質の入力が、ウェブから収集された大規模なデータセットでトレーニングされたNMTシステムを基礎とする平行データのノイズの部分とより一致する可能性が高いということです。したがって、GPTはこのような低品質の入力においてNMTシステムよりも優れたパフォーマンスを発揮するはずです。
実験:ソース文のパープレキシティに基づいて、テストセットを3つのバケットに分割しました。最も高いパープレキシティの入力は、通常、不適切にフォーマットされたテキストに対応しており、多くの入力が電子商取引ドメインに関連しています。このような入力は、NMTモデルが通常トレーニングされる平行コーパスのノイズの部分と共鳴する可能性が高いです。例えば、このような高パープレキシティの入力は、平行コーパスに通常存在する電子商取引ウェブサイトからスクレイピングされた不適切なテキストに対応する可能性があります。パープレキシティを得るためにGPT-2を使用しているため、この実験はE-X言語ペアのみに行います。
結果:表10は、異なる言語ペアにわたる実験の結果を示しています。報告された測定は、COMET-KIWIを使用して測定されたGPTとMS Translatorの間の品質の平均差です。英語から中国語、英語から日本語、英語からロシア語の言語ペアでは、文字の変更により平行データのマイニングが通常困難であるため、最も高いパープレキシティのバケットでGPT翻訳がMS Translatorよりも高いパフォーマンスを得ています。低リソース言語ペアでは、GPTは最も低いパープレキシティのバケットでさえ比例的な利得を得ています。
全体として、表10の5つの高リソース言語ペアのうち4つで、他の低パープレキシティバケットと比較して、最も高い入力パープレキシティのバケットでGPTがより高い改善を得ていることがわかります。英語(ラテン文字)から中国語、英語から日本語、英語からロシア語(キリル文字)の場合、違いは入力パープレキシティに関して単調な順序に従います。この結果は、これらの言語ペアについて、GPTは低品質の入力でより良いパフォーマンスを得ることを示唆しています。我々はこの振る舞いを平行データバイアスに起因しています。このような平行データノイズのバイアスは、入力ドメインとも相関している可能性がありますが、そのような探求は将来の研究に委ねます。
5.7 要約
LLMとNMTモデルの背後にある計算メカニズムが、定量的に区別できる翻訳アーティファクトを生成することを示しました。このサブセクションでは、GPTによって生成された翻訳の包括的な特性評価を要約します。
GPTによる改善:X-E翻訳の場合、GPTによって生成された翻訳はより流暢で、一貫して低いパープレキシティを得ています(図7で示されているように)。同時に、X-E言語ペアのGPT翻訳は一般的に、アライメントされていないソース単語の数が多く(図9)、一般的に、アライメントされていないターゲット単語の数も同様です(図10)。GPT翻訳はより非単調であり、長距離の再配置を伴う翻訳を生成します(図11)。これらの結果の組み合わせは、興味深い結論をもたらします:X-E翻訳では、GPTは調査中のNMTシステム(MS Translator)よりも流暢で意訳的ですが、ソースに忠実です。より高い意訳性は、ソースでサポートされていないコンテンツに伴われていません。つまり、これらの言語ペアでは挿入された事実コンテンツの問題は顕著ではありません。
E-X翻訳の場合、GPTはより多くのアライメントされていないソース単語(USW、図14)を生じさせ、一般的により高い翻訳非単調性(NM、図15)を示唆する、より高い意訳性を示しています。しかし、同時に、GPT翻訳はわずかに高い数のアライメントされていない翻訳単語も生じさせています。これは、より高い意訳性が高いUSWおよびNM測定の唯一の原因ではなく、調査中のNMTシステムよりも適切でない翻訳がこれらの観察の背後にある可能性のある原因であることを示唆しています。これは、以前に得られたE-X GPT翻訳の低品質測定によって裏付けられています。一般的に、E-XのGPT翻訳品質についての結論を導き出すためには、考慮されている単一の言語ペアに焦点を合わせることがより重要です。つまり、非英語のターゲット言語が重要であり、X-E翻訳の場合のように言語モデリングバイアスの影響を一般化することはできません。
改善の分野:言語モデリングバイアスの1つのアーティファクトは、GPTがソースに存在しない文末記号を、調査中のNMTシステムよりもはるかに高い頻度で挿入することです。これは、X-E、E-X、X-Yの翻訳方向においても同様です。このような流暢性への傾向は、非常に文字通りで忠実な翻訳が望まれるドメインでは適切でないかもしれません。同様に、より高い意訳性も特定のドメインには適切でない可能性があります。さらに、将来の評価のための改善分野として、流暢性と適切性の両方を組み合わせた現在の品質評価に加えて、流暢性と適切性を別々に評価することがあります。多次元自動品質測定(Raunak et al., 2022)の使用規範を制定することで、翻訳品質の異なる側面を区別するための非常にターゲット指向の信号を提供することができます。これは、特に競合する最先端のアプローチが存在する場合に特に役立ちます。
適用分野:また、私たちの結果は、GPT翻訳のより高い意訳性が、比喩的なテキストの翻訳におけるNMTモデルの改善に応用できることを示唆しています。同様に、複数のE-Xテストセットの最高パープレキシティバケットにおけるGPT翻訳によるより大きな利得は、入力ドメインがノイズの多い、不適切な文を含む可能性が高い場合に、NMTモデルよりもGPT翻訳が好まれることを示唆しています。これら2つの適用分野は、GPT翻訳の示された特性に基づいており、NMTモデルとGPTを組み合わせた場合に利益を得る可能性があります。例えば、表10の結果に基づいて、MS TranslatorとGPT翻訳の両方を改善できるハイブリッド英日システムは、最高パープレキシティの入力をGPTによって翻訳させ、低パープレキシティの入力をNMTモデル(例えば、MS Translator)を通じて翻訳するものです。このような構成は、NMTとLLMシステムの補完的な強みを翻訳に活用できるかもしれません。
6 翻訳を超えた多言語能力
このセクションでは、GPTモデルの翻訳を超えた多言語能力について調査します。特に、様々な言語で英語と比較して、新興の推論タスク15でモデルがどの程度のパフォーマンスを発揮するかを評価することを目指しています。
私たちは、翻訳のパフォーマンスを他のタスクにおける多言語パフォーマンスの代理指標として使用できるかどうか、つまりGPTモデルが提供できる多言語サポートの程度を理解することに関心があります。このために、私たちはMGSMベンチマーク(Shi et al., 2022)を使用しています。これは多言語グレードスクール数学(MGSM)の推論ベンチマークで、多言語の問題は英語データセットGSM8Kから人間によって翻訳されています。このデータセットは英語(EN)以外の10言語に対応しています:ベンガル語(BN)、中国語(ZH)、フランス語(FR)、ドイツ語(DE)、日本語(JA)、ロシア語(RU)、スペイン語(ES)、スワヒリ語(SW)、テルグ語(TE)、タイ語(TH)。
表11はMSGMベンチマークの結果を示しています。まず、各データセットの母国語でプロンプトとCoTを使用するNative-CoTを使用しました。text-davinci-003がすべての言語においてtext-davinci-002を上回っていることが観察され、text-davinci-003の多言語タスクにおける有効性が示されました。特にEN、DE、FR、ESでのパフォーマンスが高く、一方でRU、JA、ZHはラテン語族の言語よりも低いスコアを示しています。しかし、低リソース言語は限定的なパフォーマンスを達成し、真の多言語サポートを達成するためのより良いアプローチが必要であることを示しています。
次に、Translate-ENを使用しました。これはすべてのプロンプトとCoTを英語に翻訳するものです。このセットアップでは、非ラテン語グループ(RU、JA、ZH)および低リソースグループ(TH、TE、BN、SW)のパフォーマンスが向上することがわかりましたが、言語間での向上は均一ではありませんでした。驚くべきことに、このセットアップではラテン語族の言語でのパフォーマンスが低下しています。
私たちの第三で最後のセットアップはTranslate-EN+で、これはTranslate-ENに似ていますが、すべての文のテンプレートを英語のままにして翻訳しません。テンプレートを安定させることで、フランス語、スペイン語、ロシア語などのいくつかの言語で大幅な結果の改善が見られ、他の言語ではTranslate-ENと同様のスコアを獲得しました。RU、JA、ZHの翻訳におけるtext-davinci-003の高いパフォーマンスにもかかわらず、MSGMにおけるパフォーマンスは中程度であることが観察されます。これは、推論タスクがプログラミング言語のトレーニングから大きく恩恵を受けるためであり、特にトレーニングデータの多言語データの割合が低い中で、上位のラテン語族で特にそうであると推測されます。対照的に、PaLM-540Bの結果(Shi et al., 2022)はNative-CoTセットアップでより高いパフォーマンスを示しています。これは、そのトレーニングデータにおける大きな多言語データの割合、78%が英語で22%が他の言語(Shi et al., 2022)であるのに対し、GPTデータの割合は非英語が7%のみである(Brown et al., 2020)ためと推測されます。
これらの結果は、翻訳能力だけでは、RU、ZH、JAでの貧弱なパフォーマンスに示されるように、モデルがより高度な多言語推論能力を示すためには不十分である可能性があることを示唆しています。私たちは、モデルが自然言語の多言語データとプログラミング言語データの両方でトレーニングされることによって推論能力を獲得していると推測していますが、これは非ラテン語や表現が少ない言語でのそのような能力を制限するかもしれません。私たちは、幅広い言語にわたる真の多言語能力を提供するために、モデル開発者がこの分野にもっと注目する必要があると考えています。
7 結論と今後の方向性
この研究は、最新のGPTモデルの機械翻訳能力に関する包括的かつ詳細な研究を提示しています。私たちの調査は18の言語ペアを4つの異なるドメインでカバーしており、モデルの一般的なパフォーマンスに関する広範な理解を可能にしています。また、多言語推論タスクを行い、GPTモデルにおける多言語性と緊急の推論能力との相互作用を検証しました。モデルの評価を徹底するために、私たちは人間による評価と最新のニューラルネットワークベースの自動評価指標と従来の機械翻訳評価指標を併用しました。さらに、GPTモデルの翻訳出力の様々な現象と最先端のNMTシステムとの比較に関する詳細な分析を行いました。
その結果、GPTシステムは、特にリソースが豊富な言語の翻訳において、ゼロショット設定でも非常に流暢で競争力のある翻訳出力を生み出すことができることがわかりました。GPTモデルのコンテキスト内学習能力を数例で活用することにより、私たちは翻訳品質をさらに向上させることができました。さらに、最新のNMTシステムとGPTモデルを組み合わせたハイブリッドアプローチにより、最先端の翻訳品質を実現することができることを示しました。
機械翻訳におけるLLMの使用は急速に発展している分野ですが、機械翻訳の品質と理解を改善するために探求できる多くの研究方向があります。以下は、私たちが注目している重要な分野です:
• 代表されていない言語:私たちの研究は、GPTモデルはまだ代表されていない言語で苦戦していることを示しており、これらの言語の翻訳品質を向上させる方法を探求することが重要な研究課題です。
• コンテキスト内学習:GPTモデルはコンテキスト内学習において大きな可能性を示しており、これを活用して異なるスタイルやニュアンスの翻訳を生成することができます。将来の研究は、この能力をより効果的に利用して翻訳品質を向上させる方法を探求することができます。
• モデル融合:GPTのような大規模LLMの使用は計算コストが高くなる可能性があるため、それらをより効率的に利用する方法を探求することは重要な研究課題です。私たちは、より高い品質と効率を達成するためのより洗練された融合技術を調査しています。
• より良い評価指標:字句的一致指標の限界は翻訳品質評価を誤解させる可能性があります。そのため、LLMが生成した翻訳の文脈的正確性を測定できる指標を開発することが重要です。将来の研究では、LLMを使用する場合に特に、機械翻訳の品質をより正確に評価する新しい方法を探求することもできます。
全体として、私たちの研究は機械翻訳におけるGPTモデルの強みと弱みについての貴重な洞察を提供し、この分野での将来の改善と発展の機会を開きます。私たちは、GPTモデルが他の生成タスクと同様に機械翻訳をどのように変革するかを調査しました。これらのモデルはトレーニングデータにおいてよく表現された言語の翻訳に優れていますが、リソースが少ない言語では課題に直面しています。また、翻訳と推論のタスクを評価し、同じ言語であってもタスクのサポートレベルに差異があることを検出しました。このような高コストのモデルをトレーニングする主な利点は、多様なタスクと言語にわたって高いパフォーマンスを達成することですが、これには言語全体にわたるより多くのデータが必要です。これは、モデルのスケーラビリティ、多様性、公平性に対するいくつかの課題を提起します。将来の研究の方向として、これらのモデルに真の多言語能力を可能にする課題に取り組むことを提案します。これにより、言語間で同じ能力を実現することができます。
制限事項
私たちは、信頼性のあるテストセットとベースラインを持つ18の翻訳方向で評価を行いました。この研究の結論はこのコンテキストの中で受け取られるべきであり、さらなる評価なしに他の言語に一般化すべきではありません。より多くの言語での包括的な評価が必要ですが、リソースが少ない言語に対する研究結果を支配する低品質のテストセットや弱いベースラインから結論を導き出すことに注意すべきです。
この研究の制限の一つは、現在の自動評価指標がGPT出力の品質を正確に捉えることが不十分であることです。私たちは、BLEUやchrFのような字句比較に基づく指標が誤解を招く信号を与えること、および文書レベルの評価がコンテキストベースの翻訳の影響を実現する能力に限界があることを発見しました。これらの制限は、特に機械翻訳のような複雑なタスクにおける自然言語生成システムの評価の固有の課題から生じています。そのため、私たちは自動評価を包括的な分析で補完し、すべての指標を一緒に考慮し、人間による評価と定性的分析も行い、幅広い現象をカバーしました。私たちは、読者が特定の指標だけに頼るのではなく、全体的な評価を全体として考慮することを推奨し、GPTモデルの機械翻訳能力の品質をよりよく理解するためです。