ChatGPTは良い翻訳者? 論文
論文情報
タイトル:Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
発行日:2023年1月
著者:Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Shuming Shi, Zhaopeng Tu
所属:Tencent AI Lab
論文のポイント
ChatGPT翻訳 vs DeepL(Google翻訳)の貴重な論文
翻訳のテンプレートは、これが一番精度が高かった
Please provide the {日本語} translation for these sentences:
日本語は高リソース言語だが、英語とは違う言語ファミリー。
低リソースで違う言語ファミリーの翻訳は、精度が落ちる
日本語をデータセットで検証していて、ありがたい
https://scrapbox.io/files/65b3d3d261c3830024ba2540.png
Table5の結果からは、日本語への翻訳は、DeepL/Googleの方が上
論文で感じたこと
BLEUスコアを評価指標に使っているが、これを採用するのは微妙かもしれない。
内容が少し薄い論文。
DeepL, Google翻訳の精度が、ChatGPTより良いのは、実体験ベースだと信じられない。
ただこれは、実験時期および、Table8を用意したくらいだから、Table5の結果は、GPT-3.5のモデルで行われたからかもしれない(ここの明記がはっきりしなかった) この論文を読んで、GPT-4の精度は、DeepL/Google翻訳に匹敵するという主張は納得がいく
それ以外については、正直鵜呑みにはできない。
概要
この報告書では、翻訳のプロンプト、多言語翻訳、および翻訳の堅牢性を含む、ChatGPTによる機械翻訳の予備的な評価を提供しています。ChatGPTの翻訳能力を引き出すために推奨されるプロンプトを採用し、候補のプロンプトが一般的には良好に機能していることを発見しましたが、わずかな性能差があります。いくつかのベンチマークテストセットで評価することにより、ChatGPTはリソースの豊富なヨーロッパ言語(例えば、Google翻訳など)の商業的な翻訳製品と競争力があることがわかりましたが、リソースが少ないか遠隔の言語では大幅に後れを取っています。翻訳の堅牢性に関しては、ChatGPTは生物医学的な抄録やRedditのコメントに関しては商業システムほどうまく機能しませんが、話し言葉に対しては良い結果を示しています。さらに、遠隔言語のための興味深い戦略であるピボットプロンプトを探究しました。これはChatGPTに対して、ソース文を高リソースのピボット言語に翻訳した後、目標言語に翻訳するように求めるもので、翻訳の性能を顕著に向上させます。GPT-4エンジンの発売により、ChatGPTの翻訳性能は著しく向上し、遠隔言語においても商業翻訳製品と同等になりました。Google翻訳とChatGPTに関する人間の分析は、GPT-3.5を使用したChatGPTはより多くの幻覚や誤翻訳のエラーを生成する傾向があるが、GPT-4を使用したものは最も少ないエラーを犯すと示唆しています。言い換えると、ChatGPTはすでに優れた翻訳者になっています。詳細については、私たちのGithubプロジェクトを参照してください: 1 はじめに
ChatGPTは、OpenAIによって開発された、InstructGPTに基づいたインテリジェントなチャットマシンであり、プロンプトの指示に従って詳細な応答を提供するようにトレーニングされています。公式声明によると、ChatGPTは、対話形式によって、フォローアップの質問に答えたり、自分の間違いを認めたり、誤った前提に挑戦したり、不適切な要求を拒否することができます。これは自然言語処理のさまざまな能力を統合しており、質問応答、ストーリーテリング、論理的推論、コードデバッグ、機械翻訳などが含まれます。私たちは特に、機械翻訳タスクにおけるChatGPTのパフォーマンス、特にChatGPTと商業翻訳製品(例えば、Google翻訳、DeepL翻訳)とのギャップに興味を持っています。この報告書では、機械翻訳におけるChatGPTの予備的な研究を提供しますが、これはChatGPTのリリース以来、我々の最善の知識でも初めてのものです。具体的には、以下の三つの側面に焦点を当てています: 翻訳プロンプト:ChatGPTは本質的に大規模な言語モデルであり、その翻訳能力を引き出すためにプロンプトが必要です。プロンプトのスタイルは翻訳の出力品質に影響を与える可能性があります。例えば、多言語機械翻訳モデルにおいて、ソースやターゲット言語の情報をどのように言及するかは重要であり、通常は言語トークンを添付することで解決されます。
多言語翻訳:ChatGPTは、さまざまなNLPタスクを扱い、さまざまな言語をカバーする単一モデルであり、統一された多言語機械翻訳モデルと見なすことができます。したがって、リソースの差(例:高対低)や言語家族(例:ヨーロッパ対アジア)を考慮して、ChatGPTが異なる言語ペアでどのように機能するかに興味を持っています。
翻訳の堅牢性:ChatGPTはGPT-3に基づいて開発され、さまざまなドメインをカバーする大規模なデータセットでトレーニングされています。したがって、特定のドメインやノイズの多い文に対しても堅牢に機能するかどうかが気になります。 ChatGPTの翻訳能力を引き出すために、ChatGPT自身にアドバイスを求め、3つの候補翻訳プロンプトを得ました。中国語⇒英語翻訳タスクで評価すると、候補プロンプトは一般的には良好に機能し、わずかな性能差があることがわかりました。それにもかかわらず、私たちは残りの研究のために最も性能の高いプロンプトを採用しました。Flores101テストセットで4つの選択言語の翻訳を評価すると、ChatGPTはリソースが豊富なヨーロッパ言語において商業翻訳製品(例えばGoogle翻訳)と競争力がありますが、リソースが少ないまたは遠隔の言語では大幅に後れを取っています。翻訳の堅牢性に関しては、3つの堅牢性セットの結果から、ChatGPTは生物医学の抄録やRedditのコメントにおいて商業システムほどの性能を発揮しませんが、話し言葉では良い結果を示しています。
さらに、機械翻訳のためのChatGPTの改善方法について議論します。一方では、遠隔言語のための興味深い戦略であるピボットプロンプトを探求しています。これはChatGPTにソース文を高リソースのピボット言語に翻訳してから目的言語に翻訳するように求めるもので、翻訳性能を顕著に向上させます。他方では、2023年3月15日に発表された改善されたエンジンGPT-4(OpenAI, 2023)で、ChatGPTの翻訳能力を再評価し、性能の大幅な向上を観察しました。ChatGPTの翻訳性能は商業翻訳製品と同等になり、遠隔言語においてもそうです。Google翻訳とChatGPTに関する広範な分析は、GPT-3.5を使用したChatGPTはより多くの幻覚と誤翻訳エラーを生成する傾向があることを示唆していますが、GPT-4を使用したものは最も少ないエラーを犯します。言い換えると、GPT-4をエンジンとしてChatGPTはすでに優れた翻訳者になっています! 2 機械翻訳のためのChatGPT
2.1 評価設定
評価設定の簡単な紹介を提供します。これには、比較されるベースラインとテストデータが主に含まれます。
ベースライン
ChatGPTを、Google翻訳、DeepL翻訳、Tencent TranSmartといった3つの商業翻訳製品と比較します。これまでのところ、これら3つの商業システムはそれぞれ133、29、16言語の翻訳をサポートしています。デフォルトでは、この報告書の結果は2022.12.16のChatGPTバージョンから来ています。新しい結果の場合は、更新されたバージョン情報をそれに応じてマークします。
データ
多言語翻訳のために、上記の翻訳システムをFlores101(Goyal et al., 2021)テストセットで評価します。これは1012文が101言語に翻訳されたものです。翻訳の堅牢性をテストするために、WMT19生物医学翻訳タスクのテストセット(Bawden et al., 2019、つまりBio)とWMT20堅牢性タスクのset2およびset3(Specia et al., 2020、つまりRob2およびRob3)を採用します。最初の2つのテストセットはSacreBLEUを通じて、3番目はWang et al.(2021)によって前処理されたものを取得します。表1はこれらのテストセットの情報を一覧にしています。
https://scrapbox.io/files/65b3c51824499a00260e09f5.png
この実証的研究はChatGPTの非常に初期のリリースに基づいて行われたため、ウェブページを通じてのみアクセスすることができ、大量のバッチに対応することができませんでした。その結果、ChatGPTから翻訳結果を取得するのに時間がかかります。したがって、評価のために各セットから50文をランダムにサンプルします。メトリックとしては、主要指標として最も使用されているBLEUスコア(Papineni et al., 2002)を採用し、ChrF++(Popovic´, 2017)およびTER(Snover et al., 2006)もいくつかの場合に報告します。これら3つの指標はすべてSacreBLEU(Post, 2018)によってサポートされています。 2.2 翻訳プロンプト
ChatGPTの機械翻訳能力を引き出すためのプロンプトを設計するにあたり、ChatGPTからアドバイスを求めることでインスピレーションを得ています。具体的には、次のプロンプトでChatGPTに尋ねます:
あなたが翻訳するために使用できる10個の簡潔なプロンプトやテンプレートを提供してください。
そして、Figure 1に示されている結果を得ました。
https://scrapbox.io/files/65b3c56817df7c002502c508.png
生成されたプロンプトは合理的に見えますが、類似のフォーマットを共有しています。したがって、表2に示されている3つの候補プロンプトにそれらを要約します。
https://scrapbox.io/files/65b3c5934d889800241c15f9.png
ここで、【SRC】と【TGT】は翻訳のソース言語とターゲット言語を表します。TP2には元のフォーマットでよく発生する翻訳の周りの二重引用符を生成しないように指示する追加コマンドを入れています。それにもかかわらず、バッチ内の文(複数行)が時々一行に翻訳されるため、まだ不安定です。
中国語から英語への翻訳(Zh⇒En)タスクでの異なるプロンプトの比較を行い、Flores-101のテストセットを使用しました。表3はChatGPTと3つの商業システムの結果を示しています。ChatGPTは比較的良好な翻訳を提供しますが、少なくとも5.0 BLEUポイントでベースラインより遅れています。3つの候補プロンプトに関しては、TP3が3つの指標すべてで最も優れたパフォーマンスを示しています。そのため、この報告書ではデフォルトでTP3を使用します。
https://scrapbox.io/files/65b3c86550362700258913e0.png
2.3 多言語翻訳
私たちは、ドイツ語(De)、英語(En)、ルーマニア語(Ro)、中国語(Zh)の4つの言語を選択し、ChatGPTの多言語翻訳能力を評価しました。これらは、研究(Wang et al., 2022a; Jiao et al., 2021, 2022b)と競争(Bojar et al., 2016; Farhad et al., 2021)の両方で一般的に採用されています。最初の3つの言語はラテン文字を使用する同じファミリーから来ており、最後のものは中国文字を使用する別のファミリーから来ています(Fan et al., 2021)。2つの言語間の翻訳パフォーマンスをテストし、合計12の方向が含まれます。明確性と比較のために、私たちはBLEUスコアとGoogle翻訳との相対的なパフォーマンスの向上または低下(つまり、+/-)を報告します。表4は結果を示しています。
https://scrapbox.io/files/65b3c97677a7a70025043e96.png
リソースの違い
私たちは、同じファミリー内の言語のリソースの違いを考慮しています。機械翻訳では、ドイツ語⇔英語の翻訳は通常、1000万以上の文のペアでサポートされる高リソースのタスクと見なされます(Farhad et al., 2021)が、ルーマニア語⇔英語の翻訳ははるかに少ないデータでサポートされます(Bojar et al., 2016)。このリソースの違いは、GPT-3(Brown et al., 2020)のデータ統計によっても示されるかもしれませんが、私たちはChatGPTのデータ情報を知りません。表4に示されているように、ChatGPTはドイツ語⇒英語および英語⇒ドイツ語の翻訳においてGoogle翻訳やDeepL翻訳と競争力があります。しかし、ルーマニア語⇒英語および英語⇒ルーマニア語ではそれらよりも大幅に遅れています。具体的には、ChatGPTは英語⇒ルーマニア語でGoogle翻訳よりも46.4%低いBLEUスコアを得ており、ルーマニア語⇒英語では10.3%です。私たちは、英語とルーマニア語の間の単言語データの大きなリソースの違いがルーマニア語の言語モデリング能力を制限するため、英語⇒ルーマニア語のパフォーマンスが低いことを部分的に説明できると推測します。逆に、ルーマニア語⇒英語は英語の強力な言語モデリング能力から恩恵を受けるため、並列データのリソースギャップを多少補うことができます。
言語ファミリー
私たちはまた、言語ファミリーの影響を考慮します。機械翻訳では、異なる言語ファミリー間での翻訳は、同じ言語ファミリー内よりも難しいと考えられています。これは、異なる文化や文字によるものです。ドイツ語⇔英語と中国語⇔英語またはドイツ語⇔中国語の翻訳を比較することによって、ChatGPTと商業システム間のギャップが大きくなることがわかります。私たちはこれを、異なるファミリー間(例えば、英語から中国語へ)よりも同じファミリー内(つまり、英語からドイツ語へ)での知識の移転が良いためだと考えています。両方が低リソースで異なるファミリーから来ている言語ペア(例えば、ルーマニア語⇔中国語)では、パフォーマンスのギャップがさらに拡大する可能性があります(Wang et al., 2022b)。ChatGPTは一つのモデルで異なるタスクを扱うため、低リソースの翻訳タスクは高リソースの翻訳タスク(Jiao et al., 2022a)だけでなく、他のNLPタスクともモデル容量のために競争することになり、そのパフォーマンスが悪いことを説明しています。 2.4 翻訳の堅牢性
さらに、WMT19 BioおよびWMT20 Rob2およびRob3テストセットでのChatGPTの翻訳の堅牢性を評価します。これらはドメインの偏りや潜在的にノイズのあるデータの影響を導入します。例えば、WMT19 BioテストセットはMedlineの抄録で構成されており、専門知識が必要です。WMT20 Rob2は、スペル/タイプミス、単語の省略/挿入/繰り返し、文法エラー、話し言葉、インターネットスラングなど、さまざまなエラーを含む可能性があるソーシャルメディアウェブサイトreddit.comからのコメントです(Michel and Neubig, 2018)。
表5はBLEUスコアを一覧にしています。明らかに、ChatGPTはWMT19 BioおよびWMT20 Rob2テストセットにおいてGoogle翻訳やDeepL翻訳ほどのパフォーマンスを発揮しません。その理由は、Google翻訳のような商業翻訳システムは、実際のアプリケーションであり、分布外データに対してより良い一般化パフォーマンスが必要なため、ドメイン固有(例えば生物医学)またはノイズの多い文の翻訳能力を継続的に向上させる必要があるかもしれません。しかし、これはChatGPTでは行われていない可能性があります。 https://scrapbox.io/files/65b3d3d261c3830024ba2540.png
興味深い発見として、ChatGPTは、クラウドソーシングによる音声認識コーパスを含むWMT20 Rob3テストセットにおいて、Google翻訳やDeepL翻訳を大幅に上回ります。これは、本質的には人工知能チャットマシンであるChatGPTが、これらの商業翻訳システムよりも自然な話し言葉を生成できることを示唆しています。表6でいくつかの例を提供しています。
https://scrapbox.io/files/65b3d451774989002447b03a.png
3 機械翻訳のためのChatGPTの改善
上記のように、ChatGPTはリソース豊富な言語ペアにおいて商業翻訳システムのパフォーマンスに匹敵しますが、リソースが少ない、特に遠隔の言語においては依然として苦戦しています。そこで、次のような疑問が生じます:
ChatGPTをMTでどのように改善できるか?
3.1 ピボットプロンプト
MTのためのChatGPTを改善する最初の方法は、他のタスクでのChatGPTのポテンシャルを活用して、ターゲットタスクを支援することです。ここでは、遠隔言語間の翻訳品質を向上させるために、ピボットプロンプトという興味深い戦略を探求します。ソース言語とターゲット言語間の直接翻訳ではなく、ChatGPTにソース文をまず高リソースのピボット言語(デフォルトでは英語)に翻訳させ、その後ターゲット言語に翻訳させます。それに応じて、TP3プロンプトを以下のように調整します:
これらの文に対して、まず【PIV】翻訳を提供し、その後に【TGT】翻訳を一つずつ行ってください:
ここで、PIVはピボット言語を表します。大規模言語モデルであるChatGPTは、自然にプロンプトとピボット言語での翻訳結果の両方に基づいて、ターゲット言語への翻訳を生成します。Figure 2はピボットプロンプトを使用した例を示しています。
https://scrapbox.io/files/65b3d49c39a3cd00255d819e.png
ピボットプロンプトのいくつかの利点は以下の通りです:
知識の移転
2つの遠隔言語間の並列データはしばしば希少ですが(Fan et al., 2021; Wang et al., 2022b)、それらとピボット言語との間の並列データは比較的多く、ソース-ピボットおよびピボット-ターゲット方向に対するより良い翻訳能力を学習することが期待されます。したがって、ピボットプロンプトは、高リソースのピボット言語の知識を低リソースのターゲット言語に移転する可能性があります(Zoph et al., 2016; Aji et al., 2020; Li et al., 2022; He et al., 2022)。
利便性
本質的に、ピボットプロンプトは以前の研究(Cheng et al., 2016)でのピボット翻訳技術に似ていますが、ChatGPTにとってはより便利です。一般的に採用されている多言語シーケンス・ツー・シーケンス翻訳モデル(Fan et al., 2021)では、ピボット翻訳は2ステップが必要です:(1)ソース文を入力し、ピボット言語に翻訳する;(2)ピボット言語での翻訳結果を入力し、ターゲット言語に翻訳する。対照的に、ChatGPTはPIVとTGT言語の両方を識別し、ソース文を2つの言語に順番に翻訳することができます(図2を参照)、これには1ステップの操作のみが必要です。 表7には、参照に対する翻訳結果のBLUEスコアと長さ比を示しています。私たちはTP3(つまり、直接)とピボットプロンプト(つまり、ピボット)を使用して、それぞれ英語を介して(つまり、ソース-英語-ターゲット)翻訳結果を得ています。見ての通り、ChatGPTの最新アップデートは、ドイツ語⇒中国語およびルーマニア語⇒中国語の翻訳品質を、以前に使用したバージョンと比較して損なっているようです(つまり、Directnew vs. Direct)。それにもかかわらず、ピボットプロンプトはドイツ語⇒中国語およびルーマニア語⇒中国語の翻訳のパフォーマンスをそれぞれ約3.9および6.6 BLEUポイントで顕著に改善でき、その効果を示しています。翻訳結果を検証すると、TP3を使用した直接翻訳ではソース文の一部のトークンが翻訳されていないことがありますが、ピボットプロンプトによってこれが顕著に修正されることがわかります。これは、翻訳結果の長さ比によって反映されます。ピボットプロンプトはChatGPTにとって便利ですが、より長い文を生成する必要があるため、推論プロセスをさらに加速する方法は依然として重要な研究課題です。
3.2 エンジンとしてのGPT-4
MT用のChatGPTを改善するもう一つの方法は、そのエンジンを改善することです。驚くべきことではありませんが、OpenAIは2023年3月15日にGPT-4(OpenAI, 2023)をリリースしました。これは、ChatGPTの背後にあるGPT-3.5モデルよりも全面的に強力な能力を示しています。したがって、4つの翻訳方向についてパフォーマンスを再評価します。表8に示されているように、GPT-4は4つの方向すべてでChatGPTのパフォーマンスを大幅に向上させ、BLEUスコアをトップ商業翻訳システムのレベルに引き上げています。これらの結果はゼロショット設定からのものであることに注意してください。デモンストレーションを伴うICL(コンテキスト内学習: In Context Learning)のような現代の技術(Brown et al., 2020; Agrawal et al., 2022)を使用することで、翻訳パフォーマンスはさらに向上する可能性があります。言い換えると、GPT-4はすでに優れた翻訳者になっています! https://scrapbox.io/files/65b3d64924499a00260ecae8.png
4 分析
ここでは、ChatGPTに関するより深い理解を得るために、翻訳出力についていくつかの分析を行います。デフォルトでは、50のテスト例すべてのZh⇒En翻訳について、Google、ChatGPT、GPT-4の出力を分析します。
4.1 自動分析
以前の研究(Jiao et al., 2021; Wang et al., 2022a)に従い、単語レベルと文レベルの両方で翻訳出力を自動ツール、つまりcompare-mt10を使用して分析します。
単語頻度
本質的に、ChatGPTはさまざまなコーパスでトレーニングされた大規模言語モデルであり、さまざまなドメインをカバーしています。これは、テストセット内の低頻度単語の翻訳に有益かもしれません。具体的には、ターゲット単語をその頻度に基づいて3つのカテゴリに分け、単語予測の精度を計算します。表9はF測定結果を示しています。
https://scrapbox.io/files/65b3d6998640250025c3e0bb.png
意外にも、ChatGPTは低頻度単語(つまり、2未満)で最も悪いパフォーマンスを示します。これは、ChatGPTの未熟な翻訳能力に起因すると考えられます。興味深いことに、GPT-4は高頻度単語にほとんど改善を加えずに、ChatGPTのこの欠点を主に解決します。
文の長さ
ChatGPTはまた、様々なテキスト生成タスクのためにトレーニングされており、これらのタスクでは生成される文の厳密な長さ制約が通常必要とされません。したがって、翻訳パフォーマンスが文の長さにどの程度敏感であるかに興味があります。ターゲット文を文の長さに基づいて3つのカテゴリに分けます。その平均値は23.2トークンです。表10は結果を示しています。見ての通り、ChatGPTは短い文(つまり、15未満)で最も悪いパフォーマンスを示し、Google翻訳よりも18.8 BLEUポイント低くなっています。一つの観察は、ChatGPTが例えば「美国公共广播公司」のような専門用語を翻訳するとき、フルネーム(つまり、American Public Broadcasting System)を出力する傾向があり、Google翻訳と参照は略語(つまり、PBS)を使用します。その結果、単語予測の精度が顕著に低下し、特に短い文ではBLEUスコア(Papineni et al., 2002)も低下します。GPT-4は時々略語を正しく予測できるため、より良い翻訳パフォーマンスを提供します。
https://scrapbox.io/files/65b3d7b556bfe80025c22f62.png
4.2 人間による分析
自動分析に加えて、翻訳出力を手動で検査します。3人の注釈者に翻訳出力のエラーを特定してもらいました(Wang et al., 2022a)。これには、翻訳不足(つまり、Und-Trans)、過剰翻訳(つまり、Ove-Trans)、誤翻訳(つまり、Mis-Trans)が含まれます。翻訳エラーに基づいて、注釈者はGoogle、ChatGPT、GPT-4の翻訳出力をそれぞれランク付けします。1が最良のシステムで、3が最悪です。本当に区別がつきにくい翻訳出力については、同じランキングを許可します(例:1-1-1、1-1-2、または1-2-2)。主観的なバイアスを排除するために、各翻訳出力のシステム情報を注釈者に提示せず、各テスト例の3つの翻訳出力もランダムにシャッフルされます。
表11は翻訳エラーの結果を示しています。一般的に、ChatGPTはGoogle翻訳よりも過剰翻訳エラーや誤翻訳エラーが多いですが、翻訳不足エラーはわずかに少ないです。これは、ChatGPTが幻覚を生成する可能性が高いことを示唆しています。対照的に、GPT-4は3つのエラークラスすべてで最も少ないエラーを作り、最高の翻訳パフォーマンスを示しています。これは表12のランキング結果によっても確認されており、GPT-4が50のテスト例のうち32回で最良(つまり、1)にランクされています。次にGoogle翻訳とChatGPTが続きます。しかし、GPT-4のBLEUスコアはGoogle翻訳のものよりも低いままです(表8で28.50対31.66)。これは、GPT-4が参照とは異なる語彙選択でより多様な翻訳を生成する可能性があることを示しています。
4.3 ケーススタディ
直感的な理解のために、4つのテスト例を表13に示します。最初の例は、最初の数トークンでのChatGPTの幻覚と「过量降水」の不正確な翻訳を示しています。二番目の例は、ChatGPTとGPT-4が「广泛耐药结核病」をフルネームで翻訳する一方で、参照とGoogle翻訳はそうしないことを示しています。三番目の例は、GPT-4が「美国公共广播公司」という用語を略称で翻訳できることを示しています。最後の例は、GPT-4が文脈に基づいて「狼孩」という用語をより適切に翻訳できることを示唆していますが、Google翻訳とChatGPTは失敗しています。
5 結論
この研究は、ChatGPTによる機械翻訳の予備的な研究を提示しています。ChatGPTはリソース豊富なヨーロッパ言語において商業翻訳製品(例えばGoogle翻訳)と競争力を持っていますが、リソースが少ないまたは遠隔の言語では大幅に遅れています。また、話し言葉では良い結果を示しながら、生物医学の抄録やRedditのコメントに関しては商業システムよりも悪いパフォーマンスを示しています。さらに、遠隔言語の翻訳パフォーマンスを顕著に向上させることができる興味深い戦略であるピボットプロンプトを探求しました。GPT-4エンジンの発売により、ChatGPTの翻訳パフォーマンスは大幅に向上し、遠隔言語においても商業翻訳製品と同等になりました。広範な人間による分析は、GPT-4をエンジンとしてChatGPTがすでに優れた翻訳者になっていることを示唆しています。
制限事項
予備研究として、この研究は完全ではなく、さまざまな側面がさらに信頼できるものにするためにあります:
・総合性:現在、ChatGPTの応答遅延のため、各テストセットからランダムに50サンプルを選択して評価していますが、データのカバレッジが不十分で総合的ではありません。また、同じクエリの結果が複数の試行で異なる可能性があるため、評価結果にランダム性が生じます。より信頼できる結果を得るためには、各テストセットに対して翻訳を複数回繰り返し、平均結果を報告することが最善です。
・翻訳能力:この報告では、多言語翻訳と翻訳の堅牢性にのみ焦点を当てています。しかし、制約付き機械翻訳や文書レベルの機械翻訳など、さらに評価できる他の翻訳能力があります。