Self-Translate論文
https://scrapbox.io/files/65a76db08734a30022031d3f.png
論文情報
タイトル:Do Multilingual Language Models Think Better in English?
発行日:2023年8月
著者:Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, Mikel Artetxe
所属:University of the Basque Country
論文を読んで感じたこと
GPTはモデルに含まれてない
GPT-3.5のパラメータ数が200-300Bだとすると、この実験で使われたモデルは、一桁サイズが小さい GPTとの関係は不明だが、手元の検証では改善が見られた。
一方で、高リソース言語と大型モデルでより効果的と論文に書いてある通り、日本語 * ChatGPTではやる意義がありそう。
√(28+n*n ) が整数となる自然数nの値を求めよ。
Zero-shotで解かせると、GPT-3.5-Turboで、正解率60%
一方で、英語に翻訳させたところ、正解率80%
概要
Translate-test(翻訳テスト)は、多言語言語モデルの性能を向上させるための一般的な手法です。このアプローチは、外部の機械翻訳システムを使用して入力を英語に翻訳し、翻訳された入力に対して推論を行うことによって機能します。しかし、これらの改善は、一般に言語モデルが見ていない大量の並行データでトレーニングされた別の翻訳システムの使用に起因する可能性があります。本研究では、外部の翻訳システムを必要としない新しいアプローチである自己翻訳(self-translate)を紹介します。これは、多言語言語モデルのFew-Shot翻訳能力を活用することによって達成されます。5つのタスクに対する実験では、自己翻訳が直接推論を一貫して上回ることを示し、これは言語モデルが非英語の言語でプロンプトされた場合にその完全な多言語能力を活用できないことを示しています。 1章 はじめに
多言語自己回帰言語モデル、例えばXGLM、BLOOM、PaLMは、多くのタスクや言語で印象的な能力を示しています。しかし、通常、非英語の言語、特にリソースが少ない言語では性能が低下します(Ahuja et al., 2023)。この問題を緩和するための一般的なアプローチは、テストデータを外部の機械翻訳(MT)システムを使用して英語に翻訳し、その後モデルに入力するtranslate-testです。伝統的な事前トレーニング/ファインチューニングのパラダイムで主に探求されている一方で(Ponti et al., 2021; Artetxe et al., 2023)、自己回帰言語モデルでのFew-Shot学習においてもtranslate-testが大幅な改善をもたらす可能性があることが以前の研究で示されています(Shi et al., 2022)。 しかし、translate-testは別のMTシステムに依存しており、通常は主モデルが見ていない大量の並行データでトレーニングされます。この論文では、translate-testからの改善が追加リソースの使用だけに起因するのかどうかを調査します。この問題に答えるために、外部システムを使用する代わりに自己回帰言語モデルの少数ショット翻訳能力(Vilar et al., 2023)を活用する新しいアプローチである自己翻訳を提案します。より具体的には、多言語モデルに入力を英語に翻訳させ、その翻訳された入力を同じモデルにタスクを解決させるために入力します(Figure 2)。
Figure 1に示されているように、自己翻訳は元の言語で直接タスクを解決するよりも効果的であることがわかります。これは、多言語言語モデルが非英語の言語でプロンプトされた場合に、その完全な潜在能力を活用できないことを示しています。この現象はタスク全体で一貫しており、特に大規模モデルやリソースが豊富な言語で顕著です。全体として、我々の研究は多言語言語モデルの重要な限界を明らかにし、中間推論ステップなしでその完全な潜在能力を解放するための将来の研究を促します。
https://scrapbox.io/files/65a76eb075caaa0024289fc1.png
2 実験設定
次に、私たちの実験デザインについて説明し、付録Aに追加の詳細を報告します。
モデル
私たちは、2つのファミリーから7つのモデルを実験しています。XGLMからの564M、1.7B、2.9B、7.5Bモデルと、LLaMAからの7B、13B、30Bモデルです。XGLMは多言語に焦点を当てており、多くの言語をカバーしていますが、サイズが小さく、英語においては最近のモデルに後れを取っています。対照的に、LLaMAは主に英語でトレーニングされており、この言語では非常に強力ですが、多言語能力もいくらか示しています。付録Bでは、BLOOM、LLaMA 2、OpenLLaMA、OpenLLaMA V2、Redpajama、PolyLMの追加結果を報告しています。
方法
Figure 2に示すように、各モデルに対して2つの方法を比較します。直接推論では、元の(非英語の)入力をモデルにフィードし、自己翻訳では、まずモデル自体を使用して入力を英語に翻訳し、その後、この翻訳された入力を同じモデルにフィードしてタスクを解決します。翻訳には、FLORES-200データセット(Costa-jussàら、2022)からの例を4ショットで提示し、各文に対応する言語名を前置しています。開発セットから最初の文を選び、100文字を超えるものはスキップします。貪欲なデコーディング戦略を使用し、入力の各フィールド(例えば、XNLIの前提と仮説)を個別に翻訳します。分析のために、自己翻訳を外部の最先端MTシステムと比較します。そのために、3.3BのNLLB-200モデル(Costa-jussàら、2022)を使用します。 https://scrapbox.io/files/65a773105cd8ec00223cd76e.png
評価
評価には次のタスクを使用します。XCOPA(Pontiら、2020)、11言語での常識推論タスク;XStoryCloze(Linら、2022)、11言語での常識推論タスク;XNLI(Conneauら、2018)、15言語での自然言語推論タスク;PAWS-X(Yangら、2019)、7言語での言い換え識別タスク;そしてMGSM(Shiら、2022)、11言語での学校レベルの数学的推論タスクです。MGSMでは、8ショット評価をCoT (Chain-of-Thought)で行い、正規表現を使用して答えを抽出します。残りのタスクは生成的ではないので、各候補をゼロショット方式でフィードし、最も高い確率を持つものを選びます。 3 結果
表1には主な結果が報告されており、Figure 1ではXGLMの平均的な精度がスケールの関数として視覚化されています。
https://scrapbox.io/files/65a7738d8a7f5a002598f0fd.png
Figure 3は、自己翻訳とNLLBのダウンストリームパフォーマンスと翻訳品質を、低リソース言語と高リソース言語でグループ化して比較しています。追加の結果は付録Bに報告されています。以下に、主な発見を要約します:
https://scrapbox.io/files/65a7758baacff30024412798.png
自己翻訳(Self-Translate)は直接推論を上回ります。
我々は、自己翻訳がすべてのモデルの平均で直接推論よりも優れていることを発見しました。結果はタスク全体にわたって一貫しており、小さいXGLMモデルのいくつかの例外を除いています。このことは、多言語の言語モデルが英語以外の言語ではすぐにわかる以上に高性能であることを証明しているが、その潜在能力をフルに発揮するには、中間ステップを実行する必要がある。
多言語の言語モデルは言語間で能力を転送します
前述の発見の一つの可能な説明は、言語モデルが言語ごとに個別に能力を獲得し、効果的なクロスリンガル転送がないことです。しかし、LLaMAとXGLMのより密接な比較は、この仮説を否定します。特に、他のタスクで悪いにもかかわらず、LLaMAがMGSMでXGLMよりもはるかに優れていることが観察されます。これは、MGSMが新興のタスク(Wei et al., 2022)であり、小規模で能力が低いXGLMがほぼ0の精度を得るためです。対照的に、LLaMAは数学の言葉の問題を解決する能力があり、他の言語でプロンプトされた場合でもこの能力を活用できます。自己翻訳の優れたパフォーマンスは、このクロスリンガル転送が完全に効果的ではないことを示していますが、私たちの結果は、それが大きな範囲で起こっていることを示唆しています。
自己翻訳は高リソース言語と大型モデルでより効果的です。
Figure 1は、自己翻訳と直接推論の間のギャップがスケールで大きくなることを示しています。同様に、表1によると、最大のLLaMAモデルが直接推論に対して最大の絶対的な利得を得ています。同時に、Figure3(上)は、スケールの効果が高リソース言語でより大きく、最大のモデルサイズの場合、高リソース言語は低リソース言語よりも自己翻訳からより多くの利益を得ることを示しています。これは、自己翻訳の効果が小型モデルの限定的な容量によって説明されるわけではなく、スケールで増加することが期待されることを示唆しています。
MTは自己翻訳よりも優れていますが、スケールでギャップが狭まります。
Figure 3(上)に示されているように、NLLBは自己翻訳よりも優れており、外部のMTシステムを使用することが依然として有益であることを意味します。しかし、最大のモデルの翻訳能力がNLLBに近づくにつれて、ギャップは狭まります(図3、下)。最新の主要な多言語言語モデルが伝統的なMTシステムと競合するという最近の主張(Vilar et al., 2023; Hendy et al., 2023)を考えると、より強力な言語モデルは最高の結果を得るために外部のMTシステムを必要としないかもしれないことを示唆しています。
4 関連研究
伝統的な事前トレーニング/ファインチューニングのパラダイムにおいて、Translate-testは強力な基準です(Ponti et al., 2021; Artetxe et al., 2023)。初期の証拠は、自己回帰言語モデルにプロンプトする際にも効果的であることを示しています(Lin et al., 2022; Shi et al., 2022)。これは、これらのモデルが入力言語によって不規則なパフォーマンスを示すためです(Bang et al., 2023)。最近の研究では、多言語言語モデルが優れた翻訳者であることが示されています(Zhang et al., 2023; Hendy et al., 2023; Vilar et al., 2023)。これは、私たちのアプローチがTranslate-testにおいて外部のMTシステムを置き換えるために利用しています。私たちの研究と同時期に、Huang et al.(2023)は入力を翻訳することを含むより複雑なプロンプト方法を提案していますが、彼らは独自のモデルでのみ実験を行っており、翻訳の役割を単独で研究していません。最後に、Reid and Artetxe(2023)は、教師なしMTからの合成された並行データを使用することで、多言語モデルのパフォーマンスを向上させることができることを示していますが、彼らはseq2seqモデルの事前トレーニングに焦点を当てています。
5 結論
私たちは、多言語言語モデルを使用してテストデータを英語に翻訳し、その翻訳されたデータを同じモデルにタスクを解決させる新しい方法である自己翻訳を提案しました。自己翻訳は、テストデータを元の言語で直接入力する標準的な直接推論アプローチを一貫して上回っています。私たちのアプローチは追加のデータやトレーニングを必要とせず、言語モデルが非英語言語でプロンプトされた場合に完全な多言語潜在能力を活用できないことを示しています。将来的には、中間の推論ステップなしでこの問題を緩和するトレーニング方法を探求したいと考えています。
制限事項
自己翻訳は、直接推論よりも一貫して性能が優れているにもかかわらず、翻訳ステップのコストのために大幅に遅くなります。
私たちの目標は、多言語言語モデルの根本的な限界を研究することであり、そのために基本モデルを使用することにしました。実際には、命令調整されたモデルは、少数ショットのプロンプトの必要性をなくし、自己翻訳をより効率的にし、また、単一のステップでタスクを翻訳して解決することを可能にします。
最後に、私たちが使用したすべてのデータセットは(人間による)翻訳を通じて作成されたもので、これは機械翻訳を含む方法に評価のアーティファクトをもたらす可能性があります(Artetxe et al., 2020)。より現実的なシナリオでは、異なる言語でネイティブに書かれたデータセットを使用することですが、そのようなデータセットは希少であり、自己回帰言語モデルを評価するための標準ではありません。