ChatGPTはNLGの良い評価者? 論文
論文情報
タイトル:Is ChatGPT a Good NLG Evaluator? A Preliminary Study
発行日:2023年3月
著者:Jiaan Wang, Yunlong Liang, Fandong Meng, Zengkui Sun, Haoxiang Shi, Zhixu Li, Jinan Xu, Jianfeng Qu, Jie Zhou
所属:
論文を読んで感じたこと
NLG指標の分類を4つ伝えている、とてもわかりやすい 以下のタスクの疑問へのアンサー記事の1つになる
上のいずれも、NLGタスクにおいてChatGPTを評価者として使っても良好な結果が出るという一つの根拠となった
物語生成も、ChatGPTは良好な成績だった(Table 6)
翻訳タスクについては、触れていなかった
ChatGPTのAPIが登場前の論文で、temperatureなどをいじれず、再現性がない
概要
最近、ChatGPTの登場が計算言語学コミュニティから広く注目を集めています。多くの先行研究が、ChatGPTが様々な自然言語処理(NLP)タスクにおいて、自動評価指標の観点から顕著な性能を達成していることを示しています。しかし、ChatGPTが評価指標としての役割を果たす能力についてはまだ十分に探究されていません。自然言語生成(NLG)モデルの品質を評価することは困難な作業であり、NLG指標は人間の判断との相関が低いことで悪名高いですが、ChatGPTが良いNLG評価指標であるかどうか疑問があります。 この報告書では、ChatGPTをNLG指標としての信頼性を示すための予備的なメタ評価を提供します。詳細には、ChatGPTを人間の評価者とみなし、タスク固有(例:要約)や側面固有(例:関連性)の指示を用いてChatGPTにNLGモデルの生成結果を評価させます。我々は、要約、物語生成、データからテキストへのタスクを含む5つのNLGメタ評価データセットで実験を行います。実験結果は、以前の自動指標と比較して、ChatGPTがほとんどの場合で人間の判断との相関で最先端または競争力のある性能を達成していることを示しています。さらに、メタ評価データセットの作成方法がChatGPT評価者の有効性に影響を与える可能性があることが分かりました。参照に大きく依存して作成され、偏りがあるメタ評価データセットの場合、ChatGPT評価者の有効性が失われる可能性があります。我々の予備的研究が、汎用で信頼性の高いNLG指標の出現を促すことを願っています。
はじめに
自然言語理解(NLU)と自然言語生成(NLG)の下流タスクにおいて、チャット(または質問)を通じて実行される事前訓練された大規模言語モデル(LLM;例えば、GPT-3.5、ChatGPT、GPT-4)は、有望な結果を得ています。例えば、Zhong et al. (2023)は、ChatGPTがNLUタスクにおいて、一部のファインチューニングされたBERTスタイルのモデルと同等の理解能力を持つが、現在のタスク固有のNLUモデルを超えることはできないと報告しています。Wei et al. (2023)は、ChatGPTがマルチターンの質疑応答方式を通じて、複数のデータセットで良好なパフォーマンスを達成し、一部のフルショットモデルを上回ることができることを証明しています。NLGタスクにおいては、Jiao et al. (2023)は、ChatGPTが高リソースのヨーロッパ言語で商業翻訳製品(例:Google翻訳)と競合するパフォーマンスを発揮すると主張しています。Wang et al. (2023a)は、ChatGPTが情報性と簡潔性のバランスをうまく取り、素晴らしいクロスリンガルな要約を生成することを示しています。これらのタスクにおける自動評価指標の印象的なパフォーマンスが示されていますが、ChatGPTが人間のようにテキスト生成の品質を評価するかどうかはまだ明らかではありません。 最近、事前訓練された言語モデルをNLG評価指標として使用すること、例えば、MoverScore(Zhao et al., 2019)、BERTScore(Zhang et al., 2020)、COMET(Rei et al., 2020)、BLEURT(Sellam et al., 2020)、BARTScore(Yuan et al., 2021)、MAUVE(Pillutla et al., 2022)などが、深い意味的観点からの妥当な人間関連の判断を提供するため、増加する注目を集めています。ChatGPTの知能的な会話LLMとしての強力な能力を考慮すると、研究者たちは、翻訳品質を人間の評価者として評価することができるかどうかを調査しようとしています(Kocmi and Federmann, 2023)。しかし、NLGモデルの一般的な生成品質の自動評価は、まだ探究されていません。 この報告書では、次の研究質問に答えることを目指しています:ChatGPTは良いNLG評価者ですか? このために、我々はChatGPTを人間の評価者とみなし、タスク固有(例えば、要約)や側面固有(例えば、関連性)の指示を用いてChatGPTにNLGモデルの生成を評価させます。図1に示す例のように、我々はまた、異なる採点基準やプロンプトにゴールデンリファレンスを提供するかどうかを試み、ChatGPT評価者の信頼性を体系的にテストします。
https://scrapbox.io/files/65aa6e97aac98c0022de540e.png
我々は、要約、物語生成、データからテキストへのタスクを含む広く使用されている5つのNLGメタ評価データセットで実験を行います。実験結果は、特に物語生成タスクにおいて、ChatGPTがほとんどの場合で人間の判断と高い相関を示し、NLG指標としての潜在性を示しています。さらに、ChatGPT評価者はプロンプトに敏感であり、異なるタスクや側面に対して、プロンプトは慎重に設計されるべきであることがわかりました。さらに、ChatGPT評価者はプロンプトに敏感であり、異なるタスクや側面に対して、プロンプトは慎重に設計されるべきです。また、メタ評価データセットの作成方法は、異なる評価指標の有効性に大きな影響を与えます。メタ評価データセットが参照に大きく依存して作成された場合、モデル生成と参照の類似性は人間の判断を反映する強いシグナルとして機能し、単純な類似性ベースの指標(例:ROUGE)は非常に高いパフォーマンスを達成することができます。したがって、そのような状況ではChatGPT評価者は効果を失う可能性があります。 私たちの主な貢献は次のとおりです:
私たちの知る限り、人間の判断との相関を研究するためにChatGPTを一般的なNLG評価指標として利用するのは初めてです。
タスク固有および側面固有のプロンプトを使用してChatGPTに参照なしまたは参照ベースのNLG指標として機能させ、3つのNLGタスクをカバーする5つの広く使用されているメタ評価データセットでその有効性を評価します。
ChatGPT評価者はほとんどの場合、特にクリエイティブなNLGタスク(例:物語生成)で人間と高い相関を持っていることがわかりました。これは、複数の生成物が人間を満足させることができる場合です。
ChatGPT評価者はプロンプトに敏感であることがわかりました。異なるタスクや側面に対して、プロンプトは慎重に設計されるべきです。
NLGメタ評価データセットに関わるバイアスもNLG指標の有効性に影響を与え、ChatGPT評価者の限定的な有効性につながる可能性があります。
2 関連研究
2.1 NLG指標
良い自動NLG指標は、テキスト生成物の品質を効果的に示すことができ、したがって人間による評価を行うための多大な労力を節約することができます。そのため、テキスト要約、物語生成、データからテキストへの生成、機械翻訳などのNLGタスクのための自動評価指標を設計することは重要です。一般的に、各タスクでシステムがどの程度うまく機能しているかを示すスコアは、意味的一致のためにシステムテキストを1つ以上の参照テキストと比較することによって計算されます。文献では、指標は大まかに4つのタイプに分類されます:
n-gramベースの指標
基本的に、n-gramベースの指標は、生成されたテキストと参照テキストとの間の語彙的な重複を測定することを目的としています。標準的なn-gram重複ベースの指標には、ROUGE、BLEU、Distinct-n、METEORなどが一般的に含まれます。例えば、ROUGEは要約評価分野で支配的な指標です。そのバリアントは、単語(ROUGE-1)やバイグラム(ROUGE-2)などの重複を考慮します。BLEU指標は機械翻訳評価分野で一般的な実践です。これらの指標は、黄金の参照との良好な相関(通常は大きな重複)を達成していますが、システム要約が異なる表面形式を使用しながら同じ意味を伝える可能性があるため、一般的ではありません。 埋め込みベースの指標
生成されたテキストと参照テキストの間の意味的類似性をさらに改善するために、単語埋め込み(例:WMD(Kusner et al., 2015))や文埋め込み(例:BERTScore(Zhang et al., 2020)、MoverScore(Zhao et al., 2019))に基づいて埋め込みベースの指標が提案されています。これらの指標は、人間関連の判断とのギャップをさらに埋めますが、埋め込みの品質に大きく依存するため、その潜在的な可能性が制限される可能性があります。 LLMベースの指標
LLMの発展に伴い、いくつかの研究者は、LLMが人間の判断との大きな相関を達成できることを示しています。例えば、BARTScore(Yuan et al., 2021)、GPTScore(GPTScore論文)。しかし、より強力な会話型LLMであるChatGPTは、NLGモデル出力の品質を評価するために調査されていません。 その他の指標
異なる研究分野では、パラフレーズベースの指標やタスク固有の指標がいくつかあります。例えば、事前訓練されたパラフレーズモデルに基づいて翻訳出力を評価するために提案されたPRISM(Thompson and Post、2020)、特定の物語生成データセットに基づいて3つのステップ(ランキング、評価、推論)で物語を判断する人間の好みを模倣する学習指標StoryER(Chen et al.、2022)などがあります。また、table2text生成のために特別に開発された指標であるPARENT(Dhingra et al.、2019)があります。他の統計指標、例えば、遺漏エラー、幻覚エラー、付加エラー、重複エラー、外因性エラーなどもtable2textタスクで適用されています。これらの指標は印象的な結果を得ていますが、table2textでは人間による評価は避けられません。
2.2 ChatGPTに関する研究
近年、BERTからChatGPTに至るまで、多数の事前訓練された言語モデルが次々と提案されています。これらのモデルのパラメータや能力は徐々に増加し、高度な技術を促進しています。特に、知能的な会話型大規模言語モデルとして革命的な変化を見せるChatGPTは、研究コミュニティや産業界に衝撃波を送り、今日までその余波が続いています。ChatGPTの登場により、それに関連する2つの研究関心が高まっています:(1)さまざまなNLPタスクにChatGPTを活用し、伝統的なタスク固有の指標を使用してその性能を評価すること(すなわち、評価)、(2)他のタスク固有モデルの出力を評価するための指標として使用すること(すなわち、評価者)(Kocmi and Federmann, 2023)。 評価
一般的に、ChatGPTの評価タスクは、自然言語理解(NLU)と自然言語生成(NLG)の2つのカテゴリに分けられます。NLUタスクでは、ChatGPTがほぼすべてのNLUタスク(例えば、感情分析、テキストの類似性、テキストの推論)をカバーし、競争力のある、またはそれ以上の性能を達成することがいくつかの研究で見出されています(Qin et al., 2023; Bang et al., 2023; Zhong et al., 2023)。NLGタスクにおいては、機械翻訳(Jiao et al., 2023)、要約(Yang et al., 2023)、クエリ生成(Wang et al., 2023b)、放射線学レポートの簡略化(Jeblick et al., 2022)などが含まれます。これらとは異なり、私たちはChatGPTをタスク解決のためではなく、一般的なテキスト生成の品質を自動的に評価するための人間の評価者として見なしています。 評価者
評価者としては、翻訳の品質(GEMBA論文)と人間の性格(Rao et al., 2023)をChatGPTにプロンプトすることで評価する2つの研究があります。しかし、この作業では、より一般的なテキスト出力を評価し、ChatGPTが一般的なNLG指標としての能力をさらに示すことを目指しています。 3 ChatGPTによるNLG評価
このセクションでは、ChatGPTを参照なしのNLG指標(§ 3.1)または参照ベースのNLG指標(§ 3.2)として活用し、NLGモデルの生成品質を評価する方法について議論します。私たちはニュース要約タスクを例にとり、プロンプトテンプレートの詳細を提供します。
3.1 参照なしの指標
NLGモデルの生成品質を評価するために、私たちはChatGPTを人間の評価者として見なし、異なるプロンプトを通じて評価指示を与えます。各プロンプトは、(1)評価されるべきNLGタスク(例えば、要約)と(2)現在評価されるべき生成結果の側面(例えば、流暢さ)を指定する必要があります。
GEMBA論文に触発されて、我々は以下の2つのプロンプトを利用します:直接評価(DA)と1から5つ星のランキング(星)。 https://scrapbox.io/files/65aa78c7e1a8250026ed88f5.png
ここで、【task-ins】と【aspect-ins】は、それぞれ現在のタスクと側面の指示です。【aspect】と【ant-aspect】は、それぞれ評価される側面とその反対語を示します。【条件付きテキスト】はNLGモデルの入力であり、【生成されたテキスト】は出力です。例えば、ニュース要約モデルを流暢さの観点から評価する場合、DAプロンプトは次のようになるかもしれません:
DAプロンプトの例
以下のニュース要約を対応するニュースとともに、流暢さに関して0から100の連続スケールで評価してください。ここで、ゼロのスコアは「不流暢」を意味し、100のスコアは「完璧な流暢さ」を意味します。流暢さは個々の文の品質、つまり、それらがうまく書かれていて文法的に正しいかどうかを測定します。個々の文の品質を考慮してください。
ニュース:【ニュース記事】
要約:【1つの生成された要約】
スコア:
この方法では、タスクの詳細と評価側面がChatGPTに与えられます。次に、ChatGPTはその判断(例えば、「スコア:70」)と対応する説明的な説明(例えば、「要約はニュースの主要な点をカバーしていますが...」)を提供します。具体的な例はFigure 1に示されています。最後に、数値スコアはいくつかの単純な発見的ルールを通じて抽出することができます。
3.2 参照ベースの指標
参照なしの指標に加えて、我々はChatGPTを参照ベースのNLG指標とするために、プロンプトにゴールデン参照(評価プロセスにおいて正確性や品質のベンチマークとして使用される、信頼性の高い、正確な参照データセット)を明示的に言及します。
(参照付きDAプロンプト)
https://scrapbox.io/files/65aa7a055e40c900236f0db1.png
参照付きの星プロンプトも同様の方法で形成されます:
(参照付き星プロンプト)
https://scrapbox.io/files/65aa7a11ca8b900023c47fd8.png
この方法では、ChatGPT評価者はゴールデン参照を考慮に入れた評価結果を出します。
4 実験
4.1 実験セットアップ
指標
自動指標が人間の判断とどの程度相関しているかを評価するために、広く使用されている2つの相関測定が採用されます:(1)スピアマン相関(Zar, 2005)は、2つの変数間の単調な関係を評価します。(2)ピアソン相関(Mukaka, 2012)は、2つのデータセット間の線形関係を測定します。(3)ケンドールのタウ(Kendall, 1938)は、2つの測定量間の序数関連を評価します。
評価戦略
相関スコアを計算する際、異なる集計方法があります。条件付きテキストのセット{c1, c2, ..., cn}(例えば、テキスト要約タスクのソースドキュメント)とM個のNLGモデルが与えられます。m番目のモデルによるi番目の条件付きテキストの生成テキストはgi,mと表されます。
(1)サンプルレベルの評価戦略は、次のように相関スコアを計算します。ここで、ρはスピアマン相関などの相関指標を表し、fautoとfhumanはそれぞれ自動評価と人間の判断の関数を示します。
https://scrapbox.io/files/65aa7beba69aff002469fd4e.png
(2)データセットレベルの評価戦略は、次のように相関を計算します。
https://scrapbox.io/files/65aa7bf445bb9b002509d390.png
4.2 ベースライン
ChatGPT評価者を次の広く使用されている自動NLG指標と比較して、より深い分析を提供します:
ROUGE-1、ROUGE-2、ROUGE-L(Lin, 2004)は、生成されたテキストと対応する参照との間の単語、バイグラム、最長共通部分列に基づいた語彙的重複を測定します。 BERTScore(Zhang et al., 2020)とMoverScore(Zhao et al., 2019)は、事前訓練されたBERTモデル(Devlin et al., 2019)を介して意味的類似性を評価します。 PRISM(Thompson and Post, 2020)は、事前訓練されたパラフレーズモデルを介してNLGモデルを評価するために使用されます。
BARTScore(Yuan et al., 2021)は、バニラ事前訓練されたBARTモデル(Lewis et al., 2020)に基づいた最先端のNLG指標です。 BARTScore+CNN(Yuan et al., 2021)は、BARTScoreの強化版と見なすことができます。この指標は、CNN/DMデータセット(Hermann et al., 2015)でファインチューニングされたBARTに基づいています。
BARTScore+CNN+Para(Yuan et al., 2021)は、BARTScoreの別の強化版です。この指標は、CNN/DMとParaphrase2.0(Hu et al., 2019)の両方でファインチューニングされたBARTに基づいています。
Perplexity(PPL)は、生成された結果が文法的で流暢かどうかを評価するために一般的に使用されるNLG指標です。
4.3 テキスト要約
我々は、SummEval(Fabbri et al., 2021)、NewsRoom(Grusky et al., 2018)およびRealSumm(Bhandari et al., 2020)でメタ評価を行い、テキスト要約におけるChatGPTのNLG指標としてのパフォーマンスを評価しました。SummEvalはCNN/DMデータセットにおける16モデル生成の要約を収集し、これらの要約に対して一貫性、関連性、矛盾なく、流暢さを含む側面で人間の判断を注釈付けしています。NewsRoomはテキスト要約データセットとして、7モデル生成の要約に対して一貫性、関連性、情報量、流暢さを含む人間の判断を提供します。RealSummは25モデル生成の要約のピラミッド(Nenkova and Passonneau, 2004)リコールを評価します。
ChatGPTの可能性
表1および表2には、それぞれSummEvalとNewsRoomでのサンプルレベルの評価結果が示されています(SummEvalとNewsRoomでのデータセットレベルの評価結果も表4および表5に示され、同様の傾向が見られます)。実験結果は、ChatGPTがSummEvalのほとんどの側面で新しい最先端の相関を達成し、NLG指標としての潜在的な能力を示しています。NewsRoomの結果についても、ChatGPTは主要な要約指標(つまり、ROUGEおよびBERTScore)を大きな差で上回っています。我々の実験はChatGPTのパフォーマンスの下限を推定するだけであり、より良いプロンプトや更新されたバージョンのChatGPTを使用すると、より良いパフォーマンスが期待できます。
https://scrapbox.io/files/65aa7ca2ba57730023867a17.png
https://scrapbox.io/files/65aa7cb037ba130023ade296.png
データセットバイアスの影響
表3に示されているように、RealSummでの実験結果はSummEvalでのものと異なる傾向を示しています。つまり、ChatGPTは他のベースライン指標よりも大幅に性能が劣っています。たとえば、ChatGPT(参照付きの星)は0.195のサンプルレベルのスピアマン相関を達成していますが、これはROUGE-1の相当部分(つまり、0.498)を大きく下回っています。これは、RealSummでの人間の判断がピラミッド方式(Nenkova and Passonneau, 2004)によって収集されているためだと推測されます。具体的には、この方法はまず、人間の評価者にゴールデン参照から意味内容の単位を抽出させ、その後、各システム要約をシステム要約に含まれる抽出された意味内容の単位の数に基づいてスコア付けします。この方法では、生成された要約と対応するゴールデン参照の類似性が高いほど、人間の評価スコアが高くなります。したがって、この参照指向の注釈方法は、伝統的なn-gramベースの指標(例えば、ROUGE)が既に人間の判断と良好な相関を達成しているため、我々はこれを語彙的バイアスと名付けています。SummEvalおよびNewsRoomにおいては、人間の評価者はゴールデン参照と比較せずに直接異なる要約をスコア付けする必要があり、そのためこのような語彙的バイアスは含まれていません。
異なるプロンプトの影響
この研究では、NLGモデルの生成を評価するためにChatGPTを導く4つのプロンプトを試みました。見ての通り、ChatGPTのパフォーマンスはプロンプトの設計に敏感です。異なる側面について、プロンプトは慎重に設計されるべきです。これは、人間の評価者に指示を与えるような形で行う必要があります。
4.4 物語生成
物語生成は、テキスト要約と比較して開放的な生成により重点を置いた別のNLGタスクです。これは、与えられた物語の始まりに対して、さまざまな生成されたストーリーラインや異なるプロットが人々を満足させる可能性があることを意味します。したがって、物語生成モデルの評価は極めて困難です。生成されたストーリーラインといわゆる参照との間の自動類似性ベースの指標は、創造性を考慮しないため、ストーリーラインの品質を完全に評価することはできません。
物語生成タスクにおけるChatGPTのNLG指標としての有効性を示すために、OpenMEVA-ROC(Guan et al., 2021)で実験を行います。OpenMEVA-ROCデータセットは、5つのモデル生成ストーリーラインを全体的な品質を考慮して手動で注釈付けします。
ChatGPTの可能性
表6に示されているように、ChatGPTはすべての相関で最高のパフォーマンスを達成し、2番目に優れた指標(つまり、PPL)を大きく上回っています。たとえば、ChatGPT(DA w/o ref)は0.507のサンプルレベルのスピアマン相関を達成していますが、PPLは0.324のサンプルレベルのスピアマン相関しか達成していません。さらに、すべての類似性ベースの指標(つまり、ROUGE-1、ROUGE-2、ROUGE-L、BERTScore、BARTScore)は、人間の判断との弱い相関を示しています。この発見は、多様な生成結果が高品質と見なされる可能性のある、開放的で創造的なテキスト生成タスクにおいて、ChatGPT評価者がより強力で信頼性の高い判断を持っていることを示しています。
https://scrapbox.io/files/65aa7e9245104200267e300f.png
異なるプロンプトの影響
表6の結果は、異なるプロンプトによって導かれる相関結果の感度も示しています。たとえば、ChatGPT(DA w/o ref)とChatGPT(DA w/ ref)の間には大きなパフォーマンスのギャップがあります。この発見は、テキスト要約(セクション4.3)での結果と一致しています。最近では、一部の研究者もLLMの異なる(敵対的な)プロンプトに対するロバスト性について議論しており(Zhu et al., 2023)、我々はこの未探究のLLM研究方向がより多くの研究の注目を集めるに値すると考えています。
4.5 データからテキストへの生成
データからテキストへの生成は、与えられた構造化テーブルに対して流暢なフリーテキストの説明を生成することを目指しています。我々は、BAGEL(Mairesse et al., 2010)で実験を行い、データからテキストへの生成におけるChatGPT評価者の有効性を示します。
表7に示された実験結果では、ChatGPTは以前の最先端のベースラインと比較して競争力のある相関を達成しており、データからテキストへの生成の指標としての強い可能性を示しています。BAGELでの情報量に関して参照なしのChatGPTパフォーマンスを提供していないことに注意することが重要です。なぜなら、BAGELでの情報量は「システム生成がゴールド参照のすべての情報を含んでいるかどうか」と定義されており、これは情報量を評価する際にゴールデン参照を提供する必要があることを意味しているからです。
https://scrapbox.io/files/65aa809d5610e100241b209e.png
5 結論
この技術報告書では、「ChatGPTは良いNLG評価者か?」という研究質問を探求しました。そのために、私たちはタスク固有および側面固有のプロンプトを設計し、ChatGPTにNLG指標として機能するように導きました。テキスト要約、物語生成、データからテキストへのタスクをカバーする5つの広く使用されているメタ評価データセットでの実験結果は、ChatGPTがNLG指標としての潜在性を示しています。ChatGPTは、SummEvalおよびOpenMEVAメタ評価データセットにおいて新しい最先端の相関(人間の判断との)を達成し、NewsRoomおよびBAGELデータセットで競争力のある結果を得ています。
さらに、メタ評価データセットに含まれる語彙的バイアスがNLG指標の有効性に影響を与え、ChatGPT評価者の限定的なパフォーマンスにつながる可能性があることもわかりました。また、異なるタスクや側面に対して、プロンプトは慎重に設計されるべきであるという点で、ChatGPTのNLG評価者としてのパフォーマンスはプロンプトの形式に敏感です。
我々は、ChatGPTが現在のパフォーマンスを超えて、近い将来研究コミュニティに信頼性の高いNLG指標を提供すると信じています。
制限事項
ChatGPTがさまざまなNLGタスクにおいて人間の判断との最先端または競争力のある相関を達成していることを示していますが、今後の研究のための道筋となるいくつかの制限があります:
1. ChatGPTのNLG指標としてのパフォーマンスはプロンプトに依存しており、将来の研究ではより強力なプロンプトを探求してパフォーマンスを向上させることが可能です。
2. この予備的な報告では、ダイアログ生成やレポート生成など、いくつかの主流のNLGタスクでの実験が行われていません。
3. 実験を行った時点で、OpenAI ChatGPTは公式APIをリリースしていなかったため、デフォルトの温度設定でChatGPTウェブサイト上で実験を行いました。これにより、結果の再現が困難になっています。ChatGPTに関連するすべての実験は2023年2月24日から2月27日、および3月17日から3月22日に行われました。
4. 実験は英語のNLGメタ評価データセットでのみ行われており、将来的にはこの方法を他の言語やクロスリンガルなシーンに拡張することが可能です。
5. ChatGPT評価者と人間との相関は、対応するメタ評価データセットの品質と難易度にも関連しています。私たちの実験は、LLM時代以前に登場した伝統的なNLGメタ評価データセットで行われました。最近、Zeng et al. (2023)は、LLM評価者の能力をテストするための挑戦的なメタ評価ベンチマークであるLLM-BARを提案しました。将来的には、この方法を他の挑戦的なデータセットに適応し、ChatGPT評価者のパフォーマンスを研究することができます。