GEMBA論文
論文情報
タイトル:Large Language Models Are State-of-the-Art Evaluators of Translation Quality
発行日:2023年2月
著者:Tom Kocmi, Christian Federmann
所属:Microsoft
論文のポイント
GEMBAという翻訳評価指標を、Microsoftが開発された 実験では、4種類のプロンプトを使った。
直接評価(GEMBA-DA)
スカラー品質指標(GEMBA-SQM)
1-5の星評価ランキング(GEMBA-stars)
翻訳品質ラベル(GEMBA-classes)
DA(Direct Assessment)プロンプト
0-100でスコアをつける
code:markdown
Score the following translation from {source_lang} to {target_lang} with respect to the human reference on a continuous scale from 0 to 100, where a score of zero means "no meaning preserved" and score of one hundred means "perfect meaning and grammar".
{source_lang} source: "{source_seg}"
{target_lang} human reference: {reference_seg}
{target_lang} translation: "{target_seg}"
Score:
参照ない場合:
Score the following translation from {source_lang} to {target_lang} on a continuous scale from 0 to 100, where a score of zero means "no meaning preserved" and score of one hundred means "perfect meaning and grammar".
{source_lang} source: "{source_seg}"
{target_lang} translation: "{target_seg}"
Score:
SQM(Scalar Quality Metrics)プロンプト
0-100でスコアをつける
code:markdown
Score the following translation from {source_lang} to {target_lang} with respect to the human reference on a continuous scale from 0 to 100 that starts with "No meaning preserved", goes through "Some meaning preserved", then "Most meaning preserved and few grammar mistakes", up to "Perfect meaning and grammar".
{source_lang} source: "{source_seg}"
{target_lang} human reference: "{reference_seg}"
{target_lang} translation: "{target_seg}"
Score (0-100):
Stars: One to Five Stars Ranking
スコアは1-5でつける。"Three stars"、"****"、または"1 star"のような数値でない回答には特別な注意が払われる。
code:markdown
Score the following translation from {source_lang} to {target_lang} with respect to the human reference with one to five stars. Where one star means "Nonsense/No meaning preserved", two stars mean "Some meaning preserved, but not understandable", three stars mean "Some meaning preserved and understandable", four stars mean "Most meaning preserved with possibly few grammar mistakes", and five stars mean "Perfect meaning and grammar".
{source_lang} source: "{source_seg}"
{target_lang} human reference: "{reference_seg}"
{target_lang} translation: "{target_seg}"
Stars:
Classes: Quality Class Labels
出力ラベルは、「意味が保持されていない」、「いくつかの意味は保持されているが理解できない」、「いくつかの意味が保持され、理解できる」、「ほとんどの意味が保持されている、些細な問題あり」、「完璧な翻訳」のいずれか
code:markdown
Classify the quality of translation from {source_lang} to {target_lang} with respect to the human reference into one of following classes: "No meaning preserved", "Some meaning preserved, but not understandable", "Some meaning preserved and understandable", "Most meaning preserved, minor issues", "Perfect translation".
{source_lang} source: "{source_seg}"
{target_lang} human reference: "{reference_seg}"
{target_lang} translation: "{target_seg}"
Class:
モデルは、GPT-2~4、ChatGPT、GPT-3.5-Turboなど
WMT22のMetrics共有タスクによって提供された方法論とテストデータ(MQM 2022テストセットを使う)でやる 結果は、GEMBA-GPT4-DAが、最高のスコア
参照なしでも、GEMBA-GPT4-DAが最高のスコア
https://scrapbox.io/files/65cdc07272c3e8002467dad8.png
この正確性とは、評価方法3-2に詳細に書いてある
自動メトリクスが人間とどの程度相関しているかを数値化したもの
https://scrapbox.io/files/65cdc1a072c3e8002467f0fc.png
LLMが、翻訳のスコア以外の長ったらしい説明をする回数
GPT-4は0回、トークンの節約ができてありがたい。
https://scrapbox.io/files/65cdc2e9ea85100025e715e6.png
論文を読んで感じたこと
WMT22のAppraiseフレームワークで実装されている人間による翻訳品質評価のためのDA+SQMテンプレートに基づいて設計されています 概要
私たちは、参照訳とそれなしの両方で機能する翻訳品質評価のためのGPTベースの指標であるGEMBAについて説明します。私たちの評価では、参照の有無に基づいて2つのモードで4つのプロンプト変種を比較するZero-Shotプロンプティングに焦点を当てています。私たちは、ChatGPTやGPT-4を含む9つのGPTモデルのバージョンを調査しました。私たちの翻訳品質評価方法は、GPT-3.5およびそれ以上のモデルでのみ機能することを示します。WMT22のMetrics共有タスクからの結果と比較して、私たちの方法は、MQMベースの人間のラベルと比較して、両方のモードで最先端の精度を達成しています。私たちの結果は、WMT22のMetrics共有タスクの全ての3つの言語ペア、すなわち英語からドイツ語、英語からロシア語、中国語から英語におけるシステムレベルで有効です。これは、翻訳品質評価のための事前トレーニングされた生成的な大規模言語モデルの有用性に関する最初の一瞥を提供します。この研究で述べられている実験に使用されたすべてのコードとプロンプトテンプレート、およびすべての対応するスコアリング結果を公開し、外部の検証と再現性を可能にします。 はじめに
大規模言語モデル(LLM)の興味深い特性の一つは、GPTなど、多言語Q&Aへの(暗黙的な)サポートです。モデルを正しい方法でプロンプトすることで、私たちは言語間でテキストを翻訳することができます。これは驚くべきことで、GPTは翻訳タスクのためにファインチューニングされていないからです。 GPTは機械翻訳にどれだけ優れてる? 論文では、高リソース言語の翻訳に適用される場合、GPTによる翻訳が高品質であることを示していますが、まだ代表されていない言語の翻訳品質には欠けています。この発見に基づいて—モデルが翻訳できる場合、良い翻訳と悪い翻訳を区別できる可能性がある—私たちは、翻訳品質評価のタスクにGPTを適用します。 この論文の残りの部分では、最近の生成的で事前トレーニングされた大規模言語モデル(LLM)に関する進展に触発されて、これらのモデルが翻訳品質の自動評価にどのように適用できるかを探ります。この研究の主要な問いは次のとおりです:LLMは翻訳の品質評価に効果的に使用できますか?
私たちはGEMBAを提案し、これはGPT Estimation Metric Based Assessmentの略です。この指標は、各セグメントの翻訳を個別に評価し、最終的なシステムレベルのスコアに対して得られたすべてのスコアを平均化します。 私たちは、人間の参照翻訳がある場合は品質指標として、ない場合は品質見積もりタスクとして、ゼロショット評価のためのいくつかのプロンプト変種を定義し、評価します。
主なプロンプトは、WMT22のAppraiseフレームワークで実装されている人間による翻訳品質評価のためのDA+SQMテンプレートに基づいて設計されています(Federmann、2018)(Kocmi et al.、2022)、以前のFreitag et al.(2021a)の研究に基づいています。 私たちの知る限り、私たちの研究は、品質評価の目的で大規模言語モデル(LLM)の活用を探求する先駆的な努力を表しています。私たちの発見が公開された後、Lu et al.(2023)は、LLMの高いパフォーマンスを裏付ける関連レポートを独立して公開しました。
この論文の主な貢献は次のとおりです:
最新のWMT22メトリクス評価データ(システムレベル)におけるGPTベースの翻訳品質評価の最先端の能力を示します; 4つのプロンプトテンプレートを試験し、最も制約の少ないテンプレートが最高のパフォーマンスを達成することを示します;
9つの異なるGPTモデルを評価し、翻訳品質評価にはGPT-3.5およびそれ以上のモデルのみが適していることを示します; GEMBAをGPT-4モデルで使用した場合、セグメントレベルのスコアで最も優れたメトリクスにわずかに遅れをとることを示します。
GEMBA指標の概要は以下の通りです。
GEMBA指標を使用してLLM(大規模言語モデル)による翻訳品質を評価するためには、以下のパラメータが必要です:
プロンプトのバリエーション(事前定義されたセットから)
出発言語の名前、例:「中国語」
目標言語の名前、例:「英語」
ソースセグメント src1..N
候補翻訳 hyp1..N
オプションで、参照翻訳 ref1..N
各セグメントに対してGPTリクエストを生成し、個々のゼロショット問題として問い合わせてから、結果を集約します。この初期の概念証明では、数ショットのクエリや文書レベルのコンテキストなどの改善は将来の作業に残します。
2.1 プロンプトのバリエーション
4種類の異なるプロンプトタイプを実験します:2つのスコアリングタスクと2つの分類タスクをモデル化します。スコアリングタスクについては、第一に直接評価に基づくもの(GEMBA-DA)、第二に最近のスカラー品質指標に関する研究努力に基づくもの(GEMBA-SQM)。LLMにとって翻訳品質のスコアリングが不自然なタスクである可能性があるため、2つの分類タスクも設計します。最初のものは、ユーザーがさまざまなサービスや製品をレビューする際によく使用されるスタイルである1から5つ星のランキングに基づいています(GEMBA-stars)。2番目のプロンプトは、5つの個別品質クラスのうちの1つとして翻訳品質をラベル付けするようLLMに求めます(GEMBA-classes)。
これらの4つのプロンプトタイプごとに、人間の参照があるかないかによって異なる2つのモードで実験し、対応するクエリテンプレートの言い回しを変えます。例として、FIgure1にGEMBA-DAプロンプトを示します。
https://scrapbox.io/files/65cdb863c4aaa90026e2bffd.png
トークン数に基づいて、これは私たちが実験する中で最も制約の少ないプロンプトテンプレートです。プロンプトテンプレートの完全なセットは付録Aにあります。
命名規則では、参照なしの品質見積もり指標には"【noref】"の接尾辞を付けます。
2.2 スコアリングプロセス
期待されるスコアは、GEMBA-DAとGEMBA-SQMプロンプトについては0-100で、人間の評価と同じです(Graham et al., 2013);GEMBA-starsについては出力が1- 5の範囲で、GEMBA-classesは5つのクラスラベルのうちの1つを割り当てます。
セグメントレベルのスコアを平均してシステムレベルのスコアを得ます。GEMBA-classes指標バリエーションの場合、ラベルに基づいてクラスに数値0 - 4を割り当て、平均化します。
私たちがクエリするGPTモデルによっては、時々これらの範囲外でテキストとして回答が返されることがあります。無効な回答を観察した場合、ランダム性を追加し、より多くの回答をサンプリングし、出力範囲に合致する最初の回答を最終結果として選択します。
2.3 GPTモデル
GPT 2から最新のGPT-4モデルまでの7つのGPTモデルを実験します。これらは表1で説明されています。ほとんどの実験ではGPT-4モデルをデフォルトモデルとして使用し、第4.3節で他のモデルのパフォーマンスを比較します。具体的には、以下のモデルを使用します: GPT 2:Radford et al. (2019)によって提供されたモデルを使用し、品質評価にGPT 2が役立つかどうかを評価しますが、役立たないと判断しました;
Ada GPT 3:最大リクエストサイズが2,048トークンで、2021年6月までのトレーニングデータ(Brown et al., 2020a);
Babbage GPT 3:Adaよりも能力が高い(Brown et al., 2020a);
Curie GPT 3:Babbageよりも能力が高い(Brown et al., 2020a);
Davinci-002 GPT 3.5:最大リクエストサイズが4,000トークンで、トレーニングデータは2021年6月まで。FeedMEトレーニングを使用;
ChatGPT:改善されたGPT 3.5モデルで、Human FeedbackからのReinforcement Learning (RLHF)を使用して微調整されています;
Davinci-003 GPT 3.5.1:PPOトレーニングを使用;
GPT-3.5-turbo:Davinci-003モデルをスピードに最適化したもの;
GPT-4:GPT-4については限られた情報しかないが、OpenAI (2023)を参照。
GPT 3モデルは、Ouyang et al. (2022)に基づいています。これらのモデルは、推定されるパワーまたはリリース日に基づいて並べられています。OpenAIが提供するモデルの背後にあるアーキテクチャやトレーニングデータに関する詳細情報を公開していないことを認識しています。最も重要なことは、OpenAIはモデルが2021年9月までのデータでトレーニングされていると主張していることです。これは、私たちが2022年12月までに準備され、リリースされたテストセットを使用するため重要です。
3 実験
提案されたGEMBA指標のパフォーマンスを測定するために、WMT22のMetrics共有タスク(Freitag et al., 2022b)によって提供された方法論とテストデータを使用します。 これは、自動メトリクスを人間のゴールドラベルと比較する年間評価を主催しています。効果的には、COMET(Rei et al., 2020, 2022)、BLEURT(Sellam et al., 2020)、または非公開の勝者であるMetricX XXLと比較してGEMBAを評価します。
3.1 テストセット
MQM 2022テストセットを使用します。これには、次の3つの翻訳方向に対する人間の判断が含まれています:英語からドイツ語、英語からロシア語、中国語から英語。テストセットには、計54の機械翻訳システム出力または人間の翻訳が含まれています。合計106kのセグメントが含まれています。翻訳システムは、主にWMT22のGeneral MT共有タスク(Kocmi et al., 2022)の参加者から来ています。
各言語ペアのソースセグメントと人間の参照翻訳は、ニュース、ソーシャル、会話、eコマースの4つの異なるテキストドメインから約2,000文が含まれています。翻訳品質のスコアリングのためのゴールドスタンダードは、Freitag et al. (2021a)に記載されているように、各翻訳の個々のエラーをマークするプロフェッショナルによって注釈された人間のMQM評価に基づいています。
3.2 評価方法
自動メトリクスが人間とどの程度相関しているかを判断するために、システムレベルのペアワイズ精度(精度、Kocmi et al., 2021)を測定します。セグメントレベルの評価には、KendallのTau (τ, Freitag et al., 2022a)を使用します。
ここで、精度は、メトリックによって正しくランク付けされたシステムペアの数を、人間のランキングに関してシステムペア比較の総数で割ったものとして定義されます。
公式には:
https://scrapbox.io/files/65cdbfddd9153a00259e482d.png
メトリック評価に使用されるKendallのTauのバリエーションは、年々変わっています。当初、CallisonBurch et al. (2011)は、人間のランキングが引き分けの場合を無視し、自動メトリックの引き分けにペナルティを与えるKendallのTau-aを使用することを提案しました。
https://scrapbox.io/files/65cdbfe3680d580026b5aa16.png
ここで、一致は、与えられたメトリックが同じシステムの順序を示唆するすべての人間のセグメント比較のセットであり、不一致は、与えられたメトリックが異なるとするすべての人間の比較のセットです。
https://scrapbox.io/files/65cdc031db99f70025a908a6.png
この定義は後にMachácekとBojar (2014)によって更新され、一致と不一致とは対照的に、引き分けを別のグループとして扱います。
Metrics共有タスクのMathur et al. (2020)とFreitag et al. (2021b)は、これを2011年のバージョンに戻しました。昨年、Freitag et al. (2022a)は、引き分けに対する調整を行うKendallのTau-bに変更しました。私たちは実験で最新の定義を使用しています。全体として、非同一の翻訳に対する自動メトリックの引き分けは稀ですが、方法が限定されたスコアセット(私たちのケースのように)のみを出力する場合、問題となります。さらに、KendallのTauは、金のペアワイズランキングのノイズに影響を受けやすいです(Freitag et al., 2022a)。
WMT22のMetrics共有タスクの結果論文に記載されているすべてのスコアを、公式のWMT22スクリプトで再現しました。報告されたスコアは、WMT22メトリクス結果論文の表11(Freitag et al., 2022b)と一致しています。
4 結果
GEMBAのパフォーマンスについて、参照翻訳ありと参照翻訳なしの2つのモードで調査しました。表2は、WMT22のMetrics共有タスク(Freitag et al., 2022b)の最高パフォーマンスのメトリクスと比較して、システムレベルでのペアワイズ精度を報告しています。いくつかの実験では、GPT-4を主モデルとして、GEMBA-DAを主なスタイルとして使用しました。
4.1 参照に基づく
表2の結果から、参照に基づくGEMBA-GPT4-DAメトリクスが新たな最先端を設定していることが分かります。
https://scrapbox.io/files/65cdc07272c3e8002467dad8.png
これは、WMT22のMetrics共有タスクの他のすべての参照に基づくメトリクスを上回っています。特に、ゴールドスタンダードとして使用される人間のラベル自体がノイズを含むため、自動メトリクスで100%の精度を達成することは不可能であることを考えると、観察されたメトリクスのパフォーマンスレベルは予想外です。
4.2 品質推定
表2は、参照なしのメトリクスであるGEMBA-GPT4-DA【noref】が品質推定モードで最高のパフォーマンスを達成し、他のすべての参照なしメトリクスを大きく上回っていることを示しています。さらに、参照に基づく他のすべてのメトリクスも上回り、GEMBA-GPT4-DAと比べてわずかに劣るだけです。再び、観察された評価品質のレベルは驚くほど高く、翻訳品質評価タスクにLLMを使用する可能性を強調しています。
4.3 GPTモデルの比較
自動メトリクスとしてのさまざまなGPTバージョンのパフォーマンスを比較します。表3は、実験したすべてのモデルとテストしたすべてのプロンプトバリエーションの結果を示しています。
https://scrapbox.io/files/65cdc1a072c3e8002467f0fc.png
GPT-2やAdaモデルの結果は示されていません。これらのモデルは特定のスコアリング範囲での回答を生成せず、意味のある回答を生成することもないと思われます。付録Cでこれらのいくつかの回答をリストしています。私たちの実験に基づいて、これらのモデルはゼロショットプロンプトを理解するのに十分なパワーがないと結論づけます。
それとは対照的に、BabbageとCurieモデルはどのタイプの回答を生成すべきかを理解しているようですが、そのスコアの品質はランダムな推測に近いようです。したがって、BabbageとCurieは翻訳品質評価には役に立ちません。
主なパフォーマンスのジャンプはGPT 3.5およびそれ以上のモデル、すなわちDavinci-002、ChatGPT、Davinci-003、Turbo、およびGPT-4で発生します。これらのモデルは、テストしたすべてのプロンプトバリエーションに対して非常に競争力のある結果を達成します。特に、DAスタイルのChatGPTは、これらのモデルの中で最も品質が低いようです。さらに、ChatGPTとTurboは、スコアの後にそのスコアを割り当てた理由の説明を頻繁に返答します。これは、プロンプトの形式がChatGPTに説明を生成しないように指示するために変更されていないためかもしれません。
予想通り、最も強力なLLMであるGPT-4が最高のパフォーマンスを達成します。さらに、時間の経過とともに、各モデル世代が少しずつ改善されていることがわかります。これは、Hendy et al. (2023)が他のすべての以前のGPTバリエーションよりもDavinci-003で優れた翻訳能力を示したことを確認しています。
4.4 セグメントレベルのパフォーマンス
これまでの結果はすべてシステムレベルで報告されています。また、人間のゴールドアノテーションに対して、GEMBAメトリクスがセグメントレベルでどの程度うまく機能するかも調査しました。GPT-4とDavinci-003(すべてのメトリクスの結果は付録Bにあります)の各言語ペアごとのKendallのTau結果を表4に示します。
GPT-4モデルは最高性能のメトリクスよりわずかに遅れていますが、人間の判断との高い相関を維持しています。一方で、品質推定GEMBA-Dav3-DA 【noref】は他の最高性能のメトリクスと比較して著しく低いセグメントレベルのパフォーマンスを示しています。
https://scrapbox.io/files/65cdc2396c10e700257eac5b.png
セグメントレベルの相関の低いパフォーマンスは、引き分けをペナルティとするKendallのTauに起因する可能性があります。他の自動メトリクスとは対照的に、私たちのメトリクスは0〜100の間の離散値を返します。2つの翻訳が同じスコアを得る可能性は高いです。
これをさらに調査するために、すべてのシステムと3つの言語ペアのすべての回答を収集し、それぞれの異なる回答値の頻度を計算します。表5でいくつかの興味深い観察結果が見られます。DA参照に基づくプロンプトは主に5の倍数を生成します。すべてのスコアの3分の4以上が80、95、または100のスコアです。
https://scrapbox.io/files/65cdc285278f960025fb7dc9.png
これは、基盤となるシステムが実証的に高品質であるため、システム翻訳の実際の品質を反映している可能性があります。これはFreitag et al. (2022b)によっても発見されており、多くのメトリクスが同じ重要性クラスターに分類されることがあります。
「DA【noref】」を調査すると、すべてのスコアの60.5%が「95」という値であることがわかります。にもかかわらず、このメトリクスは依然としてシステムを互いに区別し、システムレベルで他のすべての品質推定メトリクスを上回ります。これは、より良いパフォーマンスを発揮するシステムが、パフォーマンスの低いシステムよりも「95」というスコアのセグメントを多く得るため、平均スコアが低くなることによるものです。システムレベルの引き分けはありません。
セグメントレベルの引き分けが頻繁で、離散的なスケールがあるため、KendallのTauセグメントレベルのパフォーマンスが低いことに寄与していると推測します。
4.5 失敗率
以前に説明したように、LLMは無効な回答、例えばスコアの代わりにテキストの回答(主にその決定の説明)をすることがあります。そのような状況が発生した場合、モデルにランダム性を追加するために温度を反復的に増加させ、期待されるスコア出力範囲に合致する最初の回答を取ります。
これにより、私たちの評価に非決定論を加えますが、この現象がどのくらい頻繁に発生するかを調査します。表6は無効な回答の数を示しています。
https://scrapbox.io/files/65cdc2e9ea85100025e715e6.png
SQMスタイルを除くほとんどすべてのモデルとプロンプトの組み合わせで、LLMはプロンプトを理解し、1%未満の回答が無効である有効な範囲内で回答を提供しています。これは最終的なシステムレベルのスコアにほとんど影響を与えず、したがって、メトリクスは主に決定論的であると結論づけます。
さらに、温度がゼロの場合は常に同じ回答が返されることを確認し、GEMBA-Dav2-DA【noref】を再実行することで評価しました。
回答の処理は単独の数字であるため通常は簡単です。場合によっては、LLMが数値スコアを出してからテキストの説明を続けることがありますが、そのような場合は最初の数字のみを解析します。GEMBA-starsプロンプトでは、モデルが異なる回答を提供するため、より複雑なアプローチを取る必要があります。例えば、二つ星の回答には「2」、「two」、「**」、「★★」、「two stars」、または「2 stars」といったバリエーションがあります。非英語のターゲット言語の場合、回答はターゲット言語で生成されることがあります。例えば、「一星」や「五」といった形です。他のプロンプトについては、出力の翻訳を試みることは観察されていません。
5 結論
私たちは、GEMBAというGPTベースの推定メトリクスに基づく評価方法についての研究を紹介しました。WMT22のMetrics共有タスクからの他の自動メトリクスと比較して、MQM 2022テストセットで英語からドイツ語、英語からロシア語、中国語から英語の3つの言語ペアにわたって最先端のパフォーマンスを報告しています。
私たちは、GPTモデルを品質評価に応用する研究を続ける予定です。さらなる研究は、現在のゼロショット方法論とは対照的に、フューショットへの切り替えやモデルのファインチューニングに焦点を当てることになるでしょう。これらは両方ともGEMBAの精度を向上させる可能性があります。さらに、MQMエラーベースの評価やポスト編集の取り組みをサポートするためのプロンプトの変更が、さらなる改善につながるかもしれません。
GPTによる評価メトリクスの強化は、より大きなコンテキストウィンドウを使用できる能力により、文書レベルの評価に関して進歩を遂げることを可能にするかもしれません。これは、文書レベルのメトリクスに関する研究が少ないため、有益である可能性があります(Vernikos et al., 2022)。
制限
初期の結果は、GEMBAメトリクスがWMT22のMetrics共有タスクの一環として評価された他の自動メトリクスと比較して非常に優れていることを示していますが、これらの結果は3つの言語ペアに対する人間のラベルに基づいていることに注意することが重要です。私たちは、メトリクスのパフォーマンスが他の言語ペア、特にHendy et al.(2023)がそのような言語の低い翻訳品質を示しているようなリソースが不足している言語に対して低下する可能性があると予想しています。さらに、GEMBAの最先端のパフォーマンスはシステムレベルでのみ成立し、セグメントレベルのスコアにはまだ改善の余地があります。報告された結果は、長期的にはLLMが翻訳品質評価タスクに対して達成可能なパフォーマンスの可能性を示しています。しかし、翻訳品質を決定する主要なツールとして使用する前に、さらなる分析が必要です。
この研究で考慮すべき追加的な制限は、評価データがOpenAIのトレーニングデータセットに含まれていないことを確実に断定できないことです。それにもかかわらず、利用可能な証拠は、これが非常に可能性が低いことを強く示唆しています。OpenAIは、彼らのデータのコンパイルが2021年9月までにのみ及ぶと主張しており、この研究で使用されたテストセットは2022年の後半に生成され、2022年12月に一般に公開されました。Davinci-002モデルを使用した当初の肯定的な結果は2月初旬に得られたものであり、OpenAIが評価データを組み込んで処理する時間枠は狭いです。さらに、テストセットはプレーンテキスト形式で容易にアクセスできるわけではなく、トレーニングでの使用に先立って前処理が必要です。