G-Eval論文
https://scrapbox.io/files/65ae20e53b938500235da108.png
論文情報
タイトル:G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
発行日:2023年5月
著者:Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, Chenguang Zhu
所属:Microsoft Cognitive Services Research
論文を読んで感じたこと
https://scrapbox.io/files/659df291a596bb0024ac942d.png
https://scrapbox.io/files/65ae27beca136400232579f1.png
対話生成タスクは、GPT-3.5も精度が高かった
https://scrapbox.io/files/65ae28a34f4a4f00233f76c9.png
G-EVALはLLMの生成結果に対してバイアスがあるかもしれない
全てのグループにおいて、G-EVAL-4は、GPT-3.5の要約に人の書いた要約よりも高いスコアを付けた。
https://scrapbox.io/files/65ae2b0037a17c0023392787.png
実際にどうする?
注意点として、2つ
temperatureに関しては、0でも良いかも
ソースコードだと2、論文だと1に設定している
top_p=1にする
概要
自然言語生成(NLG)システムによって生成されたテキストの品質を自動的に測定することは困難です。従来の参照ベースの指標であるBLEUScoreやROUGEは、特に創造性や多様性を要求されるタスクにおいて、人間の判断との相関が比較的低いことが示されています。最近の研究では、NLG評価において人間の参照がない新しいタスクに適用可能な利点を持つ、大規模言語モデル(LLM)を参照不要の指標として使用することを提案しています。しかし、これらのLLMベースの評価者は、中規模のニューラル評価者よりも人間との一致度が低いままです。この研究では、CoT (Chain-of-Thought)とフォーム記入パラダイムを用いて、NLG出力の品質を評価するためのフレームワークであるG-Evalを紹介します。私たちは、テキスト要約と対話生成という2つの生成タスクで実験を行いました。GPT-4をバックボーンモデルとして使用するG-EVALは、要約タスクにおいて人間とのスピアマン相関が0.514に達し、以前のすべての方法を大きく上回る成果を示しました。また、LLMベースの評価者の振る舞いに関する分析を提案し、LLMベースの評価者がLLM生成テキストに対してバイアスを持つ可能性の懸念を指摘しています。 はじめに
自然言語生成システムの品質評価は、大規模言語モデルが高品質で多様なテキストを生成し、しばしば人間が書いたテキストと区別がつかない場合でも、難しい問題です。従来の自動メトリクスであるBLEUScore、ROUGE、METEORなどは、NLG評価に広く使用されていますが、開かれた生成タスクにおいて、人間の判断との相関が比較的低いことが示されています。さらに、これらのメトリクスは、新しいタスクに対して収集するのに費用がかかる参照出力を必要とします。最近の研究では、LLMを参照なしのNLG評価者として直接使用することを提案しています。このアイデアは、LLMが高品質で流暢なテキストに高い確率を割り当てることを学習しているという仮定の下で、候補出力を参照ターゲットなしで生成確率に基づいて採点することです。しかし、LLMをNLG評価者として使用する妥当性と信頼性は、体系的に調査されていません。さらに、メタ評価では、これらのLLMベースの評価者は、中規模のニューラル評価者よりも人間との相関性が低いことが示されています。したがって、NLG評価のためにLLMを使用するための、より効果的で信頼性の高いフレームワークが必要です。 https://scrapbox.io/files/65ae220124a091002440d023.png
この論文では、G-EValというフレームワークを提案します。これは、LLMをCoT (Chain-of-Thought)とともに使用して、フォーム記入パラダイムで生成されたテキストの品質を評価するものです。タスクの紹介と評価基準のみをプロンプトとして入力し、LLMに詳細な評価ステップのCoTを生成させます。次に、生成されたCoTと一緒にプロンプトを使用して、NLG出力を評価します。評価者の出力はフォームとしてフォーマットされます。さらに、出力評価トークンの確率を使用して、最終メトリックを洗練することができます。テキスト要約と対話生成の2つのNLGタスクに関する3つのメタ評価ベンチマークで広範な実験を行い、その結果、G-EVALは人間の評価との相関性の点で、既存のNLG評価者を大きな差で上回ることができることを示しました。最後に、LLMベースの評価者の振る舞いに関する分析を行い、LLMベースの評価者がLLM生成テキストに対するバイアスを持つ可能性の問題を浮き彫りにしました。この論文の主な貢献を要約すると以下の通りです: 1. LLMベースのメトリクスは、特に対話応答生成などの開放型および創造的なNLGタスクにおいて、参照ベースおよび参照なしのベースラインメトリクスと比較して、人間の品質判断との相関性において一般的に優れています。
2. LLMベースのメトリクスは、指示とプロンプトに敏感であり、CoT (Chain-of-Thought)を使用することでより多くの文脈とガイダンスを提供し、LLMベースの評価者のパフォーマンスを向上させることができます。 3. LLMベースのメトリクスは、個別のスコアをそれぞれのトークン確率で再重み付けすることにより、より細かい連続スコアを提供することができます。
4. LLMベースのメトリクスは、LLM生成テキストを人間が書いたテキストよりも好む傾向があり、これはLLMベースのメトリクスがLLM自身の改善のための報酬シグナルとして使用される場合、LLMの自己強化につながる可能性があります。
2. 方法
G-EVALは、プロンプトベースの評価システムで、主に3つのコンポーネントで構成されています。 1) 評価タスクの定義と求められる評価基準を含むプロンプト
2) LLMによって生成される詳細な評価手順を説明する中間指示のセットである思考連鎖(CoT)、3) 返されたトークンの確率に基づいてスコアを計算するスコアリング機能です。
プロンプトは自然言語の指示で、評価タスクと望ましい評価基準を定義します。例えば、テキスト要約の場合、プロンプトは次のようになります:
「あなたはニュース記事のために書かれた1つの要約を与えられます。あなたの仕事はその要約を1つの基準で評価することです。これらの指示を注意深く読み、理解してください。レビュー中にこの文書を開いたままにし、必要に応じて参照してください。」
プロンプトには、一貫性、簡潔さ、文法など、異なるNLGタスクのためのカスタマイズされた評価基準も含まれるべきです。例えば、テキスト要約の一貫性を評価するために、以下の内容をプロンプトに追加します:
評価基準:
一貫性(1-5) - すべての文の集合的な質。私たちはこの次元を構造と一貫性のDUC品質質問に合わせます。要約はよく構成され、整理されているべきです。要約は関連する情報の山であるべきではなく、文から文へとトピックに関する一貫性のある情報の体系を築くべきです。
CoTは、テキスト生成プロセス中にLLMによって生成される中間表現のシーケンスです。評価タスクでは、単純な定義を超える詳細な評価指示が必要な場合があり、各タスクに対してそのような評価手順を手動で設計することは時間がかかります。LLMが自分自身でそのような評価手順を生成できることがわかりました。CoTは、LLMが生成されたテキストを評価するためのより多くの文脈とガイダンスを提供し、評価プロセスと結果を説明するのにも役立ちます。
スコアリング機能
スコアリング機能は、設計されたプロンプト、自動CoT、入力コンテキスト、および評価が必要な対象テキストを使ってLLMを呼び出します。GPTScore(Fu et al., 2023)がターゲットテキストの生成の条件付き確率を評価指標として使用するのとは異なり、G-EVALはフォーム入力パラダイムを使用して直接評価タスクを実行します。例えば、テキスト要約の一貫性を評価するために、私たちはプロンプト、CoT、ニュース記事、要約を連結してから、定義された基準に基づいて各評価側面に対して1から5までのスコアを出力するようにLLMを呼び出します。 ただし、この直接的なスコアリング機能には2つの問題があります:
1. 一部の評価タスクでは、通常、スコアの分布を支配する1桁の数字があります。例えば1〜5スケールの3などです。これにより、スコアの低い分散と人間の判断との低い相関が引き起こされる可能性があります。
2. LLMは通常、プロンプトが小数の値を明示的に要求していても、整数スコアのみを出力します。これにより、生成されたテキスト間の微妙な違いを捉えない評価スコアの多くのタイが発生します。
これらの問題に対処するために、LLMからの出力トークンの確率を使用してスコアを正規化し、その重み付き合計を最終結果として取ることを提案します。正式には、プロンプトで事前に定義された一連のスコア(例えば1から5まで)S = {s1, s2, ..., sn}が与えられ、各スコアの確率p(si)がLLMによって計算され、最終スコアは以下の通りです:
https://scrapbox.io/files/65ae2445849b710022e92fa1.png
この方法は、生成されたテキストの品質と多様性をよりよく反映する、より微細で連続的なスコアを得ることができます。
3 実験
Zhong et al. (2022)に従って、私たちは3つのベンチマーク、SummEval、Topical-Chat、QAGSの2つのNLGタスク、要約と対話応答生成において、私たちの評価者をメタ評価します。 実装の詳細
私たちはOpenAIのGPTファミリーをLLMとして使用します。これにはGPT-3.5(text-davinci-003)とGPT-4が含まれます。GPT-3.5に対しては、モデルの決定論を高めるためにデコーディング温度を0に設定します。GPT-4はトークンの確率の出力をサポートしていないため、20回サンプリングしてトークンの確率を推定するために「n = 20, temperature = 1, top p = 1」を設定します。G-EVAL-4はGPT-4をバックボーンモデルとして使用するG-EVALを示し、G-EVAL-3.5はGPT-3.5をバックボーンモデルとして使用するG-EVALを示します。各タスクの例のプロンプトは付録に提供されています。 https://scrapbox.io/files/65ae25cbfdc3dc0023540334.png
3.2 ベンチマーク
私たちは、G-EVALと人間の判断との相関を測定するために、3つのメタ評価ベンチマークを採用しました。
SummEval(Fabbri et al., 2021)は、要約のための異なる評価方法を比較するベンチマークです。それは、各要約の4つの側面に対する人間の評価を提供します:流暢さ、一貫性、整合性、関連性。これはCNN/DailyMailデータセット(Hermann et al., 2015)に基づいて構築されています。 Topical-Chat(Mehri and Eskenazi, 2020)は、知識を使用する対話応答生成システムに対する異なる評価者をメタ評価するためのテストベッドです。私たちは(Zhong et al., 2022)に従って、4つの側面に対するその人間の評価を使用します:自然さ、一貫性、魅力、根拠。
QAGS(Wang et al., 2020)は、要約タスクの幻覚を評価するためのベンチマークです。これは、2つの異なる要約データセットにおける要約の一貫性の次元を測定することを目的としています。
3.3 ベースライン
私たちは、最先端のパフォーマンスを達成した様々な評価者とG-EVALを評価します。
BERTScore(Zhang et al., 2019)は、BERT(Devlin et al., 2019)からのコンテキスト化された埋め込みに基づいて、2つのテキスト間の類似性を測定します。 BARTScore(Yuan et al., 2021)は、事前訓練されたエンコーダーデコーダーモデル、BART(Lewis et al., 2020)の平均尤度で評価する統一された評価者です。ソースとターゲットの形式に応じて異なるスコアを予測できます。 FactCCとQAGS(Krysciński et al., 2020; Wang et al., 2020)は、生成された要約の事実的整合性を測定する2つの評価者です。FactCCは、要約がソースドキュメントと一致しているかどうかを予測するBERTベースの分類器です。QAGSは、要約から質問を生成し、その回答がソースドキュメントに見つかるかどうかを確認する質問応答ベースの評価者です。
USR(Mehri and Eskenazi, 2020)は、異なる視点から対話応答生成を評価する評価者です。それは、各ターゲット応答に異なるスコアを割り当てるいくつかのバージョンを持っています。
UniEval(Zhong et al., 2022)は、テキスト生成の異なる側面をQAタスクとして評価できる統一された評価者です。事前訓練されたT5モデル(Raffel et al., 2020)を使用して、
評価タスク、ソース、ターゲットテキストを質問と回答としてエンコードし、その後QAスコアを評価スコアとして計算します。質問の形式を変更することで、異なる評価タスクを処理することもできます。
GPTScore(GPTScore論文)は、GPT-3などの生成事前訓練モデルを使用してテキストを評価する新しいフレームワークです。それは、与えられた指示とコンテキストに続く高品質の生成テキストに、生成事前訓練モデルがより高い確率を割り当てると仮定します。G-EVALとは異なり、GPTScoreは評価タスクをフォーム記入問題ではなく、条件付き生成問題として定式化します。 3.4 要約の結果
私たちはZhong et al. (2022)と同じアプローチを採用して、要約レベルのスピアマンとケンドールタウ相関を使用して、異なる要約指標を評価します。表1の第1部分は、モデル出力と参照テキストの間の意味的類似性を比較する指標の結果を示しています。これらの指標は、ほとんどの次元で性能が悪いです。第2部分は、要約品質の人間の評価から学習するニューラルネットワークを使用する指標の結果を示しています。これらの指標は、類似性ベースの指標よりもはるかに高い相関を持っており、要約評価においてより信頼性があることを示唆しています。
表1の最後の部分は、GPTベースの評価者に対応しており、GPTScoreも要約テキストを評価するためにGPTを使用していますが、与えられたターゲットのGPTの条件付き確率に依存しています。G-EVALは、SummEvalベンチマークにおいて、以前のすべての最先端評価者を大きく上回りました。G-EVAL-4は、スピアマンとケンドールタウ相関の両方で、G-EVAL-3.5と比較してはるかに高い人間の対応を達成しました。これは、要約評価においてGPT-4の大きなモデルサイズが有益であることを示しています。G-EVALは、いくつかの次元でGPTScoreを上回り、シンプルなフォーム記入パラダイムの有効性を示しています。 https://scrapbox.io/files/65ae27beca136400232579f1.png
3.5 対話生成の結果
私たちはMehri and Eskenazi (2020)のTopical-chatベンチマークを使用して、異なる評価者が対話応答の品質に対する人間の評価とどの程度一致しているかを測定します。私たちは、対話の各ターンに対してピアソンとスピアマンの相関を計算します。表2は、類似性ベースの指標が、応答がどれだけ魅力的で根拠のあるかについて人間と良い合意を持っていることを示していますが、他の側面ではそうではありません。3.2 ベンチマークに関して、G-EVAL以前の学習ベースの評価者では、UniEvalがすべての側面において人間の判断と最も一致するスコアを予測しています。最後の部分に示されているように、G-EVALもTopical-Chatベンチマークにおいて以前のすべての最先端の評価者を大幅に上回りました。特筆すべきは、G-EVAL-3.5がG-EVAL-4と同様の結果を達成できることです。これは、このベンチマークがG-EVALモデルにとって比較的容易であることを示しています。
https://scrapbox.io/files/65ae28a34f4a4f00233f76c9.png
3.6 幻覚に関する結果
高度なNLGモデルはしばしば、コンテキスト入力と一致しないテキストを生成することがあり(Cao et al., 2018)、最近の研究では、強力なLLMも幻覚の問題に苦しんでいることが分かっています。これは、要約の一貫性の側面を測定するための評価者を設計する最近の研究を動機付けています(Kryściński et al.、2020; Wang et al.、2020; Cao et al.、2020; Durmus et al.、2020)。私たちは、2つの異なる要約データセットを含むQAGSメタ評価ベンチマークをテストしました:CNN/DailyMailとXSum(Narayan et al.、2018)表3は、BARTScoreがより抽出的なサブセット(QAGS-CNN)でうまく機能するが、より抽象的なサブセット(QAGS-Xsum)では低い相関を持っていることを示しています。UniEvalは、データの両方のサブセットで良い相関を持っています。 https://scrapbox.io/files/65ae29d1ca1364002325b348.png
平均的に、G-EVAL-4はQAGSのすべての最先端の評価者を上回り、QAGS-Xsumで大きなマージンを持っています。一方、G-EVAL-3.5はこのベンチマークでうまく機能しなかったが、これは一貫性の側面がLLMの能力に敏感であることを示しています。この結果は表1と一致しています。
4 分析
G-EVALはLLMベースの出力を好むか?
LLMを評価者として使用する際の懸念の1つは、それが高品質の人間によって書かれたテキストよりもLLM自体によって生成された出力を好む可能性があることです。この問題を調査するために、私たちは要約タスクで実験を行い、LLMによって生成された要約と人間によって書かれた要約の評価スコアを比較します。私たちはZhang et al. (2023)で収集されたデータセットを使用します。そこでは、彼らはまずフリーランスのライターにニュース記事の高品質な要約を書かせ、次にアノテーターに人間によって書かれた要約とLLMによって生成された要約(GPT-3.5、text-davinci-003を使用)を比較させます。 データセットは3つのカテゴリーに分けられます:
人の評価が、「人の書いた要約>GPT-3.5の要約」であったグループ
人の評価が、「人の書いた要約<GPT-3.5の要約」であったグループ
人の評価が、「人の書いた要約=GPT-3.5の要約」であったグループ
私たちはG-EVAL-4を使用して各カテゴリーの要約を評価し、平均スコアを比較します。
結果はFigure 2に示されています。G-EVAL-4は、人間の判断も人間によって書かれた要約を好む場合に、人間によって書かれた要約に高いスコアを割り当て、人間の判断がGPT-3.5の要約を好む場合には低いスコアを割り当てます。しかし、G-EVAL-4は常に、人間の判断が人間によって書かれた要約を好む場合でも、GPT-3.5の要約に人間によって書かれた要約よりも高いスコアを与えます。
https://scrapbox.io/files/65ae2b0037a17c0023392787.png
この現象に対して、私たちは2つの潜在的な理由を提案します:
1. 高品質なシステムからのNLG出力は、自然に評価が難しいです。元の論文の著者は、人間によって書かれた要約とLLMによって生成された要約を判断する上でのアノテーター間の合意が非常に低いことを発見しました。Krippendorffのアルファは0.07です。 2. G-EVALは、モデルが生成と評価の間に同じ評価基準の概念を共有している可能性があるため、LLMによって生成された要約に対してバイアスを持っている可能性があります。 私たちの研究は、この問題に関する予備的な研究と見なされるべきであり、LLMベースの評価者の行動を完全に理解し、LLMによって生成されたテキストに対するその固有のバイアスを減らすために、さらなる研究が必要です。私たちは、評価スコアがさらなる調整のための報酬信号として使用される場合、LLMベースの評価者がLLMの自己強化につながる可能性があるという懸念を強調します。そして、これはLLMが自身の評価基準に過度に適合し、NLGタスクの真の評価基準ではなく、その結果をもたらす可能性があります。
私たちは、SummEvalベンチマークで思考連鎖(CoT)を使用および使用しないG-EVALのパフォーマンスを比較します。表1は、CoTを持つG-EVAL-4が、すべての次元でCoTなしのG-EVAL-4よりも相関が高いことを示しています。特に流暢さにおいてそうです。これは、思考連鎖(CoT)は、生成されたテキストを評価するためのより多くの文脈とガイダンスを提供し、評価プロセスと結果を説明するのにも役立つことを示唆しています。
確率正規化の効果
私たちは、SummEvalベンチマークで、確率正規化を使用したおよび使用しないG-EVALのパフォーマンスを比較しました。表1は、ケンドールタウ相関において、確率を使用したG-EVAL-4は、確率を使用しないG-EVAL-4に比べてSummEvalで劣っていることを示しています。私たちはこれがケンドールタウ相関の計算に関連していると考えています。これは、一致するペアと不一致するペアの数に基づいています。確率なしの直接スコアリングは、一致するペアでも不一致するペアでもない多くのタイを生む可能性があります。これはケンドールタウ相関を高くするかもしれませんが、モデルが生成されたテキストを評価する真の能力を反映していません。一方で、確率正規化は、生成されたテキスト間の微妙な違いをより良く捉える、より詳細で連続的なスコアを得ることができます。これは、スコアの順位に基づくスピアマン相関で確率を使用したG-EVAL-4の方が高いことに反映されています。
モデルサイズの効果:私たちは、SummEvalおよびQAGSベンチマークで異なるモデルサイズのG-EVALのパフォーマンスを比較しました。表1と表3は、Topical-Chatベンチマークの魅力性と根拠性を除いて、ほとんどの次元とデータセットで、G-EVAL-4はG-EVAL-3.5よりも高い相関を持っていることを示しています。これは、より大きなモデルサイズが、一貫性や関連性などのより困難で複雑な評価タスクにおいて、G-EVALのパフォーマンスを向上させることができることを示しています。
5 関連研究
Ngramベースの指標
Ngramベースの指標は、生成されたテキストと参照テキスト間の語彙的オーバーラップを測定することでNLGモデルを評価するスコアを指します。BLEU(Papineni et al.、2002)は、機械翻訳評価に最も広く使用される指標であり、修正されたn-gram精度の幾何平均と簡潔性ペナルティを計算します。ROUGE(Lin、2004)は要約評価のためのリコール指向の指標であり、生成された要約と一連の参照要約間のn-gramオーバーラップを測定します。最近のNLGに関する論文の60%以上が、システムを評価するためにROUGEまたはBLEUのみに依存していることが示されています(Kasai et al.、2021)。ただし、これらの指標はコンテンツの品質を測定できず(Reiter and Belz、2009)、また、文法的な誤りを捉えることができないため(Stent et al.、2005)、NLGシステムの信頼性を正確に反映していません。 埋め込みベースの指標
埋め込みベースの指標は、単語または文の埋め込みに基づいて、生成されたテキストと参照テキスト間の意味的類似性を測定することでNLGモデルを評価するスコアを指します。WMD(Kusner et al.、2015)は、単語の埋め込みに基づいて2つのテキスト間の距離を測定する指標です。BERTScore(Zhang et al.、2019)は、BERT(Devlin et al.、2019)からのコンテキスト化された埋め込みに基づいて2つのテキスト間の類似性を測定します。MoverScore(Zhao et al.、2019)は、より堅牢な類似性尺度を得るために、ソフトアライメントと新しい集約方法を追加することでBERTScoreを改善します。(Clark et al.、2019)は、文の埋め込みに基づいて生成されたテキストと参照テキスト間の類似性を計算することで、複数の文のテキストを評価する指標を提案しています。 タスク固有の評価者
タスク固有の指標は、特定のタスク要件に基づいて生成されたテキストの品質を測定することでNLGモデルを評価するスコアを指します。例えば、要約タスクでは生成された要約の一貫性を評価する必要があります(Kryściński et al.、2020; Wang et al.、2020; Cao et al.、2020; Durmus et al.、2020)、対話応答生成タスクでは生成された応答の一貫性を評価する必要があります(Dziri et al.、2019; Ye et al.、2021)。ただし、これらの指標は他のNLGタスクに一般化できず、生成されたテキストの全体的な品質を測定することはできません。
統合評価者
最近、複数の次元からテキスト品質を評価するために、入力と出力の内容(Yuan et al.、2021)または使用するモデルのバリエーション(Mehri and Eskenazi、2020)を変更するいくつかの評価者が開発されています。UniEval(Zhong et al.、2022)は、テキスト生成の異なる側面をQAタスクとして評価できる統合評価者です。質問形式を変更することで、異なる評価タスクを処理することができます。
LLMベースの評価者
Fu et al. (2023)は、GPT-3のような生成事前訓練モデルを使用してテキストを評価する新しいフレームワークであるGPTScoreを提案しました。これは、生成事前訓練モデルが与えられた指示とコンテキストに続く高品質の生成テキストに高い確率を割り当てると仮定しています。Wang et al. (ChatGPTは良い翻訳者? 論文)は、ChatGPTをNLG評価者として使用することに関する予備的な調査を行いました。 KocmiとFedermann (GEMBA論文)は、機械翻訳タスクの評価にGPTモデルを使用することを提案しました。 6 結論
本論文では、G-EVALというフレームワークを提案します。これは、思考連鎖(CoT)を備えたLLMを使用して、生成されたテキストの品質を評価します。テキスト要約と対話生成の2つのNLGタスクに関する広範な実験を行い、G-EVALが最先端の評価者を上回り、より高い人間との相関を達成できることを示しました。また、LLMベースの評価者の振る舞いに関する予備的な分析を提案し、LLMベースの評価者がLLMによって生成されたテキストに対してバイアスを持っている可能性の問題を強調しました。私たちの研究が、NLG評価のためのLLMの使用に関するより多くの研究を刺激し、また、評価者としてのLLMの使用に関連する潜在的なリスクと課題に対する認識を高めることを願っています。