NLG評価* LLM総まとめ 論文
https://scrapbox.io/files/65ac84d3c8311b0024c417d0.png
論文情報
タイトル:Leveraging Large Language Models for NLG Evaluation: A Survey
発行日:2024年1月
著者:Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Chongyang Tao
所属:WICT, Peking University
論文を読んで感じたこと
NLGに対し、LLMを使った評価法をまとめた論文
評価法は主に、スコアベースか、リカートスタイルか、ペアスタイルかがある
https://scrapbox.io/files/65ada72dfd811a002339e6b6.png
一覧
https://scrapbox.io/files/65adf85f38167f00241feb31.png
この論文を読んで、評価をどうする?
翻訳(MT)に使えるGPTの指標は以下の通り(Table2)
ブログなどの文章生成は、一般生成(GE)と物語生成(SG)の2つの側面があるか
Table2を見て、両方評価できるも指標は、以下の通り
以下の指標も汎用性が高い
概要
自然言語生成(NLG)評価の急速に進化する分野において、大規模言語モデル(LLM)の導入は、生成されたコンテンツの品質、例えば一貫性、創造性、文脈の関連性を評価する新たな手法を開拓しています。この調査は、体系的な分析に欠ける新興分野であるLLMを用いたNLG評価を総合的に概観することを目的としています。我々は、既存のLLMベースの評価指標を整理するための一貫した分類法を提案し、これらの方法を理解し比較するための構造的な枠組みを提供します。我々の詳細な探求には、さまざまなLLMベースの方法論を批判的に評価すること、ならびにNLG出力を評価する際のそれらの強みと制限を比較することが含まれます。偏見、堅牢性、分野特有の問題、統一された評価を含む未解決の課題を議論することによって、この調査は研究者に洞察を提供し、より公正で進歩したNLG評価技術を提唱することを目指しています。 1 はじめに
自然言語生成(NLG)は、現代のAI駆動型コミュニケーションの最前線に立ち、大規模言語モデル(LLM)による最近の進歩がNLGシステムの能力を革命的に変えています。これらのモデルは、ディープラーニング技術と膨大な訓練データによって駆動され、幅広いアプリケーションでテキストを生成する優れた能力を示しています。NLG技術が急速に進化するにつれて、生成されたコンテンツの品質を信頼性を持って測定できる堅牢な評価方法論の確立がますます重要になってきます。
従来のNLG評価指標、例えばBLEU、ROUGE、TER(Snover et al., 2006)は、主に表面レベルのテキストの違いに焦点を当てており、しばしば意味的な側面の評価において不足しています。この制限は研究の進歩を妨げ、誤解を招く研究結論につながる可能性があります。さらに、意味的同等性や流暢さのような側面を評価するにもかかわらず、神経埋め込みを使用してスコアを計算する他の方法も、柔軟性がなく範囲が限定されているとされています。また、これらの従来の方法は、人間の判断との低い整合性(Liu et al., 2023c)と、スコアの解釈性の欠如(Xu et al., 2023)を持っています。これらの欠点は、NLG分野におけるより繊細で包括的な評価方法の必要性を強調しています。 LLMの新たな能力は、例えばCoT (Chain-of-Thought)、Zero-Shot CoT、人間の好みとのより良い整合性(Ouyang et al., 2022)など、LLMベースのNLG評価に有望な道を示しています。これらの特性は、LLMをNLG出力を評価するための強力なツールとして位置づけており、従来の方法に比べてより洗練され、人間との整合性の高い評価を提供します。例えば、LLMは最終スコアを支持する合理的な説明を生成することができ、人間のフィードバックによる強化学習(RLHF)は、LLMの好みを人間のものとよりよく整合させることができます。Figure 1に示されているように、これらのアプローチの鍵となる戦略は、参照や情報源を伴っているかどうかにかかわらず、生成されたテキストをさまざまな側面から評価するためにLLMにプロンプトを指示することに関与しています。しかし、さまざまなタスクや目標に対応する幅広いLLMベースのNLG評価方法には、統一された概観が欠けています。 https://scrapbox.io/files/65ad872ee5add90023d139e7.png
与えられた大規模言語モデル(LLM)を利用したNLG評価の分野における研究量の増加に伴い、この複雑で多様な方法論を理解するために総合的な要約が緊急に必要とされています。この調査は、この有望な領域に関する包括的な概観を提供することを目的としており、既存の研究を整理するための一貫した分類法を提示しています。我々は重要な研究とその方法論を詳細に区別し、これらのアプローチのさまざまな強み、制限、特有の属性について分析的な議論に深く潜り込んでいます。さらに、この分野内の未解決の課題や未解決の問題を通じて、将来の学術的探求のための潜在的な進路を示しています。この包括的な探求は、読者にLLMベースのアプローチのニュアンスとNLG評価における進化するダイナミクスについての深い理解を提供することを目指しています。
この調査の構成
我々は、LLMを活用したNLG評価における最近の進歩に関する最初の包括的な調査を提示します。初めに、NLG評価のための正式な枠組みを確立し、関連する研究を分類するための分類法を提案します(セクション2)。次に、これらの研究について詳しく掘り下げ、詳述します(セクション3)。さらに、LLMベースの評価者の有効性を評価するためのさまざまなメタ評価ベンチマークの体系的なレビューを行います(セクション4)。この分野の急速な進化を認識し、将来の研究を導く可能性のあるいくつかの潜在的なオープンな問題を特定し、議論します(セクション5)。この体系的な調査を締めくくり、より公正で堅牢で専門的で統一されたLLMベースの評価者の開発を通じて、この分野の進歩を提唱します。さらに、人間の判断などの他の評価アプローチを統合することで、より包括的で多面的な評価フレームワークを実現することを強調しています。
2 形式化と分類
このセクションでは、まずLLMベースのNLG評価タスクを簡潔に形式化します。NLG評価の目的は、流暢さ、一貫性など、さまざまな次元でモデルの候補生成物を評価することです。LLMの最近の進歩により、文脈理解と合理的な応答の生成におけるその能力が大幅に向上しています。特に、現代の研究は、LLMの強力な能力を活用して、一連の指示に従うタスクとしてNLG評価を再定義し始めています(Zhang et al., GPTScore論文)。一般性を保つために、モデルによって生成されたテキストの既存の評価フレームワークを次のように形式化します: https://scrapbox.io/files/65ad89fee9f7060023f794ef.png
ここで、hは仮説テキスト(つまり評価される候補生成物)を表し、fは評価関数を表し、LLMによって具体化することができます。変数sは生成物の入力ソースを表します。このソースには、生成されたコンテンツの背景やフレームを提供するソーステキストやサポート文書などが含まれる場合があります。たとえば、機械翻訳タスクでは、cはソース言語の文である可能性があります。最後に、rは評価のベンチマークとして機能する一連の基準参照を指します。これらの参照は、生成された要約の品質が注釈付きの参照要約と比較されるテキスト要約のようなタスクで重要です。
この調査では、評価タスク、評価参照、評価機能という3つの主要な次元に沿ってNLG評価の研究を分類します。これらの次元は、この領域内のさまざまなアプローチを分類し、理解するための包括的なフレームワークを提供します。
評価タスクT
NLGには、機械翻訳(MT)、テキスト要約(TS)、対話生成(DG)、物語生成(SG)、画像キャプション生成(IC)、データ・テキスト生成(D2T)および一般生成(GE)など、多様なタスクが含まれており、それぞれ独自の評価要件と課題を持っています。各タスクの特性は、評価対象の側面とシナリオを決定します。たとえば、テキスト要約では、ソースコンテンツとの関連性に焦点を当てる場合がありますが、対話生成では、応答の一貫性が重要です。これらのさまざまな目的を考慮して、タスク固有の評価の観点からも分類を拡張しています。この分類により、さまざまなNLGタスク全体で異なる評価方法がどのように機能するかを理解することができ、特定のタスクコンテキストでの既存の評価パラダイムの強みと制限についての洞察を提供します。
評価参照r
参照が利用可能かどうかに基づいて、評価シナリオを参照ベースと参照フリーのシナリオに分けます。参照ベースの評価では、生成されたテキストhが一連の基準参照rと比較されます。このアプローチは、生成されたテキストの品質が確立された基準と客観的に測定できるタスクで特に普及しています。比較指標は、正確性、関連性、一貫性、参照への類似度などの側面に焦点を当てることがあります。典型的なアプリケーションには、生成された要約が参照要約と比較されるテキスト要約、標準翻訳と比較される機械翻訳が含まれます。一方、参照フリーのアプローチは、評価のために外部の参照に依存しません。この方法は、生成されたテキストhをその固有の資質や提供されたソースコンテキストsとの整合性に基づいて評価します。このコンテキストでの評価は、流暢さ、独創性、コンテキストへの関連性などの側面に焦点を当てる場合があります。
評価関数f
評価関数は、LLMを利用するさまざまな方法に基づいて、マッチングベースまたは生成ベースに分けられます。
Figure 2に示されているように、マッチングベースの方法は、参照と仮説の間の意味的同等性を測定するか、ソーステキストと仮説の間の適切な度合いを測定します。いくつかの研究は、分散表現空間(Zhang et al., 2020; Zhao et al., 2019)または離散文字列空間(Lin, 2004; Papineni et al., 2002)でのトークンレベルのマッチング関数を使用して、参照と仮説の間の意味的同等性を測定します。他の研究は、シーケンスレベルに焦点を当てています(Sellam et al., 2020; Rei et al., 2020; Peyrard et al., 2017)。
対照的に、生成ベースの方法には、LLMが直接評価指標を生成するために使用される方法が含まれます。これらの方法は、指示を設計することによって、生成されたテキストの品質を評価するためにLLMの生成能力を活用します。
https://scrapbox.io/files/65ad9265b216440024846b30.png
この調査の範囲
最近では、マッチングベースの方法は、ニューラルエンコーダを使用して評価の特定の側面に対するスコアを計算するものです。ただし、これらの方法は、解釈可能性が限られている、人間の判断との相関が低い、評価される側面の範囲が限定されているなどの課題に直面していることが多いです(Xu et al., 2023; Fu et al., 2023)。幸いなことに、LLMの新たな能力は、NLG評価に対する豊富な可能性を開いています。これには、CoTを通じた解釈可能性の向上、指示に従う能力を介したカスタマイズの高度化、RLHFを通じた人間の評価とのより良い整合性が含まれます(Xu et al., 2023; Zheng et al., 2023)。マッチングベースの評価方法に主に焦点を当てた最近の調査が豊富にあることを考慮して(Celikyilmaz et al., 2020; Sai et al., 2022; Goyal et al., 2023を参照)、この調査は、より新しい生成ベースの方法を探求することに専念しています。Figure 3は、生成ベースの評価の分類法を示しています。関連する研究を、LLMが調整されるかどうかに応じて、プロンプトベースの評価とチューニングベースの評価という2つの主要なカテゴリに分類します。さらに、これらの方法をスコアベース、確率ベース、リッカートスタイル、ペアワイズ比較、アンサンブル、および高度な評価プロトコルのサブカテゴリに分けます。これらは、それぞれの評価形式によって区別されます。これらのカテゴリは、セクション3で詳しく説明されます。
3 生成評価
LLMの急速な進化の中で、これらのモデルをNLGタスクの評価者として活用することに焦点を当てた研究が増えています。この注目は、LLMの高い生成能力に根ざしており、NLGテキストの品質評価を行うためにそれらを使用する研究が登場しています。これを生成評価と呼びます。このカテゴリは、大まかにプロンプトベースの評価とチューニングベースの評価に分類され、LLM評価者のパラメータが微調整を必要とするかどうかに基づいています。プロンプトベースの評価は通常、堅牢な基本LLMにプロンプトを提供して生成されたテキストを評価することを伴います。一方、チューニングベースの評価は、NLG評価のために特別に調整されたオープンソースのLLMに依存しています。どちらのアプローチも、生成されたテキストの品質を測定するための多様な評価プロトコルに対応しています。
現在の方法は、生成された仮説テキストの品質を判断するために異なるスコアリングプロトコルを考慮しています。いくつかの取り組みでは、生成されたテキストの品質を表す連続的なスカラースコアを生成するためにLLM評価者を使用します。これは➊ スコアベースの評価として知られています。また、他の評価方法では、プロンプト、ソース、または参照テキスト(オプション)に基づいて生成されたテキストの生成確率を評価指標として計算します。これは➋ 確率ベースの評価として知られています。さらに、特定の研究は、リッカート尺度を使用してテキスト品質を複数のレベルに分類することにより、NLG評価を分類タスクに変換します。このシナリオでは、LLM評価者は、特定の品質レベルに生成されたテキストを割り当てることにより、その品質を評価します。これは➌ リッカートスタイルの評価として知られています。その間、➍ ペアワイズ比較方法は、LLM評価者を使用して、生成されたテキストのペアの品質を比較します。さらに、➎ アンサンブル評価方法は、異なるLLMまたはプロンプトを持つ複数のLLM評価者を使用し、評価者間のコミュニケーションを調整して最終的な評価結果を導き出します。最後に、いくつかの最近の研究は、より包括的で微妙な評価結果を得ることを目的として、➏ 高度な評価方法(細かい基準を考慮したり、思考の連鎖やコンテキスト内学習の能力を組み合わせたりする)を探求しています。
https://scrapbox.io/files/65ada72dfd811a002339e6b6.png
このセクションでは、これら2つの包括的な評価方法のカテゴリーと、それぞれの評価プロトコルを詳細に掘り下げています。表2は、現在のプロンプトベースとチューニングベースの評価方法の包括的な概観を提供します。この表は、それぞれの適応タスク、バックボーンモデル、スコアリングプロトコル、評価された側面を明確にし、参考にします。
https://scrapbox.io/files/65ada490e7fd18002396698b.png
3.1 プロンプトベースの評価
プロンプトベースのテキスト評価は、特にLLMの能力を活用して、NLGの進歩の最前線に立っています。この方法では、評価プロセスが、生成されたテキストの品質と一貫性を評価するためにLLMを導くように設計された特別な手がかりであるプロンプトの作成に巧妙に織り込まれています。最近では、Eval4NLPワークショップは、大規模言語モデルを説明可能な指標としてプロンプトする共有タスクを開催しました(Leiter et al.、2023)。通常、プロンプトテンプレートは、指示、側面、基準、および望ましい出力形式を包含する構造化されたフレームワークとして機能し、生成されたテキストの評価のための体系的なガイドを提供します。これらのテンプレートは、研究者や実践者が正確な評価要件を明確にし、評価プロセスの一貫性と再現性を確保することを可能にします。LLMの力を活用することで、プロンプトベースの評価は、NLGシステムのパフォーマンスについての包括的な理解だけでなく、貴重な洞察を抽出するための洗練されたアプローチも提供します。
スコア評価
テキスト評価においてLLM評価者を利用する直感的で広く採用されているプロトコルは、生成されたテキストの品質を反映する連続スコアを生成するためにこれらの評価者にプロンプトを行うことを含みます。そのようなプロンプトの具体的な例は、表1の最初の行に示されています。この方法の先駆者として、GEMBAは、LLM評価者を使用して、参照の有無にかかわらず、生成された翻訳に0から100までの品質スコアを割り当てることを提案しました。GEMBAは、翻訳品質評価のためにGPT-3.5またはそれ以上のLLMを使用する効果を示し、シンプルなゼロショットプロンプトでその能力を示しました。(GEMBA論文) この基盤に基づいて、Lin and Chen(2023)は、LLM評価者と手動アノテータとの整合性を高めることを目的として、スコア評価方法をより広いNLG評価領域に拡張しました。
Liu et al.(2023e)は、独特で正確な意味的参照を特徴とするクローズドエンド応答生成の品質を評価するためにLLM評価者を調整しました。彼らの革新的なアプローチには、生成された応答に対する説明的な判断を生成するためにLLM評価者にプロンプトを行い、その後数値的な品質スコアを抽出することが含まれます。同様に、Wang et al.(2023b)は、参照の有無にかかわらず、異なる評価側面にわたる生成されたテキストの品質スコアを直接生成する、さまざまなNLG評価タスクに適用可能な統一されたプロンプトを提案しました。(ChatGPTは良い翻訳者? 論文)さらに、Jain et al.(2023)は、要約タスクを評価するためにコンテキスト内の例を持つLLM評価者を使用し、要約出力の品質を効果的に捉える数値文字列を生成しました。これらの多様な応用は、包括的なNLG評価のためにLLM評価者を活用する際のスコアベースの評価方法の汎用性と適応性を強調しています。 確率ベースの評価
生成されたテキストの品質が、ソースまたは参照テキストに基づくLLMによる生成の容易さとしばしば相関していることを認識し、いくつかの研究は評価タスクを条件付き生成タスクとして定義する独自の視点を採用しています。このコンテキストでは、生成されたテキストの生成尤度が計算され、テキスト品質を示すスコアとして機能します。これは、表1の2行目で示されています。Yuan et al. (2021)は、機械翻訳、テキスト要約、データ・テキストタスクにおいて、ソースまたは参照テキストに基づいて生成されたテキストの確率を計算するためにBART(Lewis et al.、2019)を評価者として初めて活用しました。この方法論を発展させるために、Fu et al. (2023)は、タスクの説明や評価側面の定義を含むプロンプトを設計し、それを使用してLLMベースの評価者に生成されたテキストの生成確率を計算させました。従来の生成確率の品質スコアとしての使用とは対照的に、Jia et al. (2023)は、生成された要約の信頼性を評価するために、参照フリーのメトリックとして3つの確率変化を計算しました。
リッカートスタイルの評価
人間のアノテーションプロセスに触発され、いくつかの研究は、LLM評価者を使用して生成されたテキストの品質レベルを評価し、これらの評価者はリッカートスタイルのスケールに基づいて評価や品質ラベルを生成します。代表的なリッカートスタイルのプロンプトは、表1の3行目に示されています。例えば、Chiang and Lee (2023)は、LLM評価者に人間のアノテータと同じ評価指示を提供し、5点リッカートスケールを使用して生成されたテキストの品質を評価するように促しました。一方、Gao et al. (2023)は、ChatGPTに指示し、提供されたソース文書に基づいて、関連性、信頼性、流暢さ、一貫性などの複数の評価側面にわたってモデル生成要約を評価させました。
ペアワイズ評価
LLM評価者を使用して生成されたテキストの品質を数値スコアまたはリッカートスタイルの評価で個別に評価するのとは別に、LLMを使用した別の評価方法は、他の生成されたテキストと明示的に比較し、どちらが優れているかを決定することです(Bai et al., 2023; Ji et al., 2023)。代表的なプロンプトは、表1の最後の行に示されています。Wang et al. (2023c)は、与えられたクエリに対して2つのモデル生成応答の評価結果を得るためにLLM評価者を使用しました。この方法は、複数の証拠とバランスの取れた位置校正を提案し、プロンプト内の応答ペアの順序が評価結果に影響を与えないようにするために、2つのテキストの品質が近い場合には人間のアノテータの助けを求めます。Wang et al. (2023e)は、参照フリーのパーソナライズされたテキスト生成評価フレームワークを導入し、LLM評価者に3つの重要な側面(パーソナライゼーション、品質、生成されたテキストの関連性)で生成されたテキストペアのペアワイズ比較を実行させ、その判断の詳細な説明を提供します。
アンサンブル評価
実際の評価プロセスはしばしば複数の人間アノテーターによる協力的な評価を伴うため、いくつかの研究は異なる基本モデルやプロンプトを持つ複数のLLM評価者を使用し、生成されたテキストの品質をさまざまな視点から評価することを可能にします。これはFigure 5で示されています。
https://scrapbox.io/files/65adf5afa1745000259d7e2f.png
Wu et al. (2023a)は、LLMに複数の役割を設定し、生成された要約を主観的および客観的な次元で参照要約と比較して評価させました。この作品は、入力テキストに応じて動的な役割プロファイルを生成し、複数の役割の結果を最終評価結果として統合します。Li et al. (2023c)は、複数のLLM評価者を使用して、モデル生成応答のペアワイズ評価を行い、比較結果について複数回の議論を行い、ペアワイズスコアリングについて相互合意に達しました。同様に、Zhang et al. (2023b)は、LLM評価者を複層ニューラルネットワーク構造として設定することを提案しました。下層の評価者は、特定の評価視点からモデル生成応答の評価結果を得ます。上層の評価者は前層からのすべての評価情報を受け取り、それを相互に議論して、より包括的な評価結果を得ます。また、Chan et al. (2023)は、協力的な議論中にさまざまな役割のプロンプトを持つ多様なコミュニケーション戦略を設計し、モデル生成応答のペアワイズ評価を行いました。
高度な評価
https://scrapbox.io/files/65adf63c3f24e400245eec85.png
Min et al. (2023)は、LLMによって生成された長文から一連の原子的事実を抽出し、それらを与えられた知識源と照らし合わせてLLM評価者によって検証する微細な評価スキーマを提案しました。Lu et al. (2023)は、Error Analysis Prompting(EAPrompt)と呼ばれる新しいプロンプト方法を提案しました。これは、与えられたソーステキストと参照翻訳に基づいて、生成された翻訳内のさまざまなタイプの事前定義されたエラー(例えば、大きなエラーや小さなエラー)を分析するようにLLM評価者に促します。その後、以前のエラー分析に基づいて生成された翻訳の品質を測定します。LLMベースの評価者の堅牢性を高めるために、Hasanbeig et al. (2023)は、反復的なコンテキスト内学習を使用してテキストのLLMベースの評価を監査し、改善するための体系的なプロトコルであるALLUREを提案しました。単一または数少ない参照による評価がモデルの仮説の品質を正確に反映しない可能性があることを考慮して、Tang et al. (2023)は、大規模言語モデル(LLM)を使用して、単一の参照をさまざまな表現で複数の高品質なものに言い換えることで、機械翻訳、テキスト要約、画像キャプションタスクでのさまざまな評価方法を強化しました。LLMのコンテキスト内学習能力をさらに活用するために、Liu et al. (2023f)は、採掘され調整された基準を評価指示に組み込むことによってLLMベースの評価者を自動的に整合させ、調整するAUTOCALIBRATEを提案しました。 3.2 チューニングベースの評価
自然言語生成(NLG)評価の進化する風景の中で、研究者は従来の closedベースのLLM(例えば、ChatGPTやGPT-4)の代わりにオープンソース言語モデル(例えば、LLaMA)の微調整に注目するという顕著なパラダイムシフトが進行中です。この変革的なシフトは、APIコールに関連する費用、プロンプトの堅牢性、およびドメイン適応性の重要な考慮を含む主要な視点の徹底的な探求によって推進されています。
各評価インスタンスごとに高価なAPIコールを必ず要求するclosedベースのモデルとは対照的に、より小規模なオープンソースLLMの微調整は、費用効果的な代替手段を提供します。このアプローチにより、研究者は、広範なAPI使用に関連する財政的負担を伴わずに、特定のタスクで自分のモデルを評価することができます。さらに、NLG評価のためのLLMのプロンプトは、プロンプトの慎重な作成を必要とし、変動が大きく結果に大きな違いをもたらす可能性があります。さらに、ドメイン適応性の考慮は、NLG評価の進化する風景を強調しています。
オープンソースのLLMを微調整することで、研究者はモデルを多様なドメインに合わせてカスタマイズする柔軟性を持つことができます。これは、特定のニッチに限定された閉鎖ベースのモデルによって課せられる制限を超えるものです。
プロンプトベースの評価と比較して、チューニングベースの方法は、スコアリングプロトコルに基づいて、リッカートスタイルの評価、確率ベースの評価、ペアワイズ評価など、さまざまなタイプに分類されます。さらに、監視された微調整における出力説明に基づいて、これらの方法は包括的評価またはエラー指向の評価にさらに分けられます。さまざまなスコアリングプロトコルの紹介から始め、最後の進歩評価で2つの出力説明の要約を提供します。
リッカートスタイルの評価
いくつかの研究では、生成されたテキストに対する品質評価やラベルを提供するためにLLMを調整します。Gekhman et al. (2023)はFLANPaLM 540B(Chung et al., 2022)を使用して実際に生成された要約の品質を注釈し、これらの注釈付きデータを軽量LLM(例えば、T5-11B)を事実一致性要約評価者として調整するためのトレーニングデータとして使用しました。Yue et al. (2023)は、既存のファクトチェック、NLI、および要約タスクのデータセットを再利用し、オープンドメインQAデータセットからシミュレートされたデータを取得して、帰属評価のために軽量LLMを調整しました。Li et al. (2023a)は、複数のシナリオを含むデータセットを作成し、GPT-4(OpenAI、2023)を使用して各シナリオの評価判断を生成し、LLaMAを生成評価者として調整するための監督信号として使用しました。Wang et al. (2023a)は、既存のデータセットを適切に匿名化し、新しいパーソナライズされたラベルを使用してLLaMA2(Touvron et al.、2023)をパーソナライズされたストーリー評価モデルとして調整しました。これは、1〜10のグレードと詳細なレビューを出力することによって、生成されたテキストに対するパーソナライズされた評価を提供します。
確率ベースの評価
いくつかの研究では、生成されたテキストの生成確率を計算することでテキストの品質を評価するために生成的LLMを訓練しています。ThompsonとPost(2020)は、Transformerを多言語参照から候補へのパラフレーズャーとして訓練し、参照テキストに基づいてモデル生成翻訳の生成確率を得ました。Qin et al. (2022)は、T5モデルを生成的および識別的に調整し、テキストを生成する確率を品質スコアとして使用しました。 ペアワイズ評価
生成されたテキストペア間の比較のためにLLMを調整する作品もあります。Wang et al. (2023f)は、LLMからの応答ペアを収集し、GPT-3.5に出力判断を生成させ、与えられたクエリに対するモデル生成応答のペアを評価するためにLLaMA7Bを調整しました。Zheng et al. (2023)は、Chatbot Arenaからの人間の投票データセットを使用してVicunaを微調整し、与えられたクエリで2つの回答をペアワイズ評価しました。 高度な評価
ほとんどのチューニングベースの評価者は、GPT-4やChatGPTなどの強力な閉鎖モデルによって生成された評価行動(スコアまたは説明)を模倣するために訓練されています。監視された微調整の文脈では、多くの研究が包括的評価(Li et al.、2023a; Wang et al.、2023f,a; Kim et al.、2023a)に重点を置いています。これは、生成されたコンテンツの包括的な評価を伴い、割り当てられたスコアの包括的な説明を提供します。これは、一貫性、関連性、流暢さなどの多様な要因を考慮し、仮説テキストの品質に関する包括的な理解を提供します。また、いくつかの研究は、仮説テキストの特定のエラーを検証し、説明することに焦点を当てたエラー指向の評価を探求しています。このカテゴリーは、生成されたコンテンツの微細な側面に焦点を当て、評価結果を特定し、正当化します。例えば、Yue et al. (2023)は、異なるタイプの帰属エラーを最初に定義し、その後、LLMをプロンプトしたり、関連するタスク(例えば、質問応答(QA)、ファクトチェック、自然言語推論(NLI)、要約)からのシミュレートされたデータや再利用されたデータを使用して、小規模LLMを微調整したりして、これらを探求しました。Xu et al. (2023)は、GPT-4を使用して微細な分析データを構築し、LLaMAを調整して、参照テキストと比較した生成テキストのエラー分析を生成しました。さらに、Jiang et al. (2023)は、要約、翻訳、データ2テキストなどのさまざまなテキスト生成データセットからデータをサンプリングし、そのシステム出力には実世界のシステム出力とGPT-4合成が含まれており、GPT-4によってエラー分析をキュレーションし、LLaMAを微細な評価のために調整しました。
4 ベンチマークとタスク
LLMベースの評価者は、さまざまなNLGタスクで応用されています。同時に、既存のおよび最近導入されたメタ評価ベンチマークの多数が、これらの評価者の効果を検証する目的で提供されています。これらのベンチマークは、生成されたテキストの品質を測定する人間の注釈を組み込み、自動評価者と人間の好みとの一致度を評価します。タスクに基づいて分類されるこれらのベンチマークは、機械翻訳や要約などの単一シナリオの例、およびマルチシナリオベンチマークに分類されます。このセクションでは、これらのNLGタスクとそれらに関連するメタ評価ベンチマークの概要を提供します。
機械翻訳(MT)
MTタスクは、ソース言語の文書をターゲット言語に変換しながら同じ意味を維持することを中心としています。年次WMTメトリクス共有タスク(Mathur et al., 2020; Freitag et al., 2021b, 2022)は、英語からドイツ語、英語からロシア語など、複数の言語にわたるモデル生成翻訳、ソーステキスト、参照テキスト、および人間の判断を含む一連のベンチマークを毎年導入しています。これらのベンチマークは、自動評価者と人間の判断との相関を評価するための貴重なリソースを提供します。 テキスト要約(TS)
TSは、与えられたテキストの簡潔で一貫した要約を生成し、その本質的な意味を捉えることを含みます。多くのメタ評価ベンチマークが提案されています(Grusky et al., 2018; Gliwa et al., 2019; Bhandari et al., 2020; Wang et al., 2020b; Pagnoni et al., 2021; Laban et al., 2022; Skopek et al., 2023)。広く使用されているベンチマークの1つはSummEval(Fabbri et al., 2021b)です。このベンチマークには、CNN/DailyMailテストセット(Hermann et al., 2015)から無作為に抽出された100のソースニュース記事から生成された16モデルによる要約が含まれており、各要約は5人の個別のクラウドソースワーカーと3人の独立した専門家によって、一貫性、流暢さ、関連性の4つの次元にわたって1から5のリッカートスケールで注釈されています。 対話生成(DG)
DGタスクは、会話の文脈で人間のような応答を生成することを目指しています。Mehri and Eskenazi (2020b)は、Topical-Chat(Gopalakrishnan et al., 2019)とPersonaChat(Zhang et al., 2018)の2つのオープンドメイン対話コーパスで人間の注釈を行いました。各データセットでは、Topical-Chatに対してコンテキストごとに6つの応答、PersonaChatに対して5つの応答で60の対話コンテキストがサンプリングされ、各応答は対話システムと人間の出力から生成されました。各応答は、自然さ、一貫性、魅力、根拠、理解可能性、全体的な品質の6つの次元で評価されました。
画像キャプション(IC)
このタスクは、画像に対するテキストの説明またはキャプションを生成することを含みます。画像キャプションのメタ評価ベンチマークには、画像テキストペアに対する人間の注釈が含まれています(Aditya et al., 2015; Vedantam et al., 2015)。たとえば、一般的に使用されているFlickr 8kデータセット(Hodosh et al., 2013)は、2つの人間の注釈セットを収集しています。1つは17Kの専門家の判断注釈を含み、人間の専門家によって画像キャプションペアが1から4のスコアで評価されます。もう1つは、CrowdFlowerから収集された145Kの二項品質判断を含み、各画像キャプションペアに対して、キャプションが対応する画像を説明しているかどうかを判断します。
データ・テキスト(D2T)
D2Tタスクは、構造化されたデータから流暢で事実に基づいた人間が読めるテキストを生成することを含みます。Mairesse et al. (2010)はBAGELを提案しました。これには、ケンブリッジのレストランに関する202のサンプルが含まれており、各サンプルには構造化された情報コンテキストとそれに対応する生成されたテキスト、参照、および人間の判断が含まれています。
ストーリー生成(SG)
このタスクは、与えられた物語の始まりや執筆要件を持つ一貫性のある文脈に関連する物語やストーリーを作成することを含みます。ストーリー生成のほとんどのメタ評価ベンチマークには、ストーリーとそれに対応する手動で注釈付けされた判断スコアが常に含まれています(Guan et al., 2021; Chen et al., 2022)。さらに、Wang et al. (2023a)は、与えられた評価者のペルソナを持つ生成されたストーリーの品質を評価するための2つのパーソナライズされたストーリー評価ベンチマーク、Per-MPSTおよびPer-DOCを作成しました。
4 一般生成(GE)
LLMが数学、推論、対話、オープンエンドQAなどの一般的なNLGタスクでますます使用されるにつれて、LLM評価者は複数のシナリオにわたってモデル生成テキストの品質を効果的に評価することを提案しています(Kim et al., 2023a; Ke et al., 2023)。それに応じて、多くのマルチシナリオのメタ評価ベンチマークが提案されています(Wang et al., 2023c; Zheng et al., 2023; Wang et al., 2023d; Yue et al., 2023)。典型的には、Zhang et al. (2023b)は、対話、オープンドメインQA、プログラミングなどの複数のタスクデータセットから、指示とモデル生成の応答ペアを含む2,553の評価サンプルをサンプリングし、それぞれに人間による注釈付きの好みのラベルを付けました。さらに、Zeng et al. (2023)は、419の評価サンプルを含むベンチマークを提案し、これをNATURALとADVERSARIALの2つのセットに分類しました。前者は既存の人間の好みのベンチマークからインスタンスを収集し、各インスタンスに客観的な好みがあることを確認します。後者には、指示に反するが良好な表面的な資質を持ち、評価者にとって挑戦的な敵対的なインスタンスが含まれています。
5 開かれた問題
この論文は、LLMに基づく最近の自然言語生成評価に関する包括的なレビューを提供しており、プロンプトベースとチューニングベースの評価アプローチの両方を包含しています。様々なテキスト生成ベンチマークでの著しい努力と顕著な成果にもかかわらず、この分野にはいくつかの課題が残っています。
LLMベースの評価者のバイアス
LLMを評価者として使用することは、テキスト評価を生成タスクとして捉えることを意味します。その結果、LLMが評価者の役割で使用されると、生成者としての機能に固有のバイアスを持ち込む可能性があります。これらのバイアスには、特定の人口統計的アイデンティティ(例えば、人種、性別、宗教、文化、イデオロギー)に関連するステレオタイプなどの社会的バイアスが含まれます(Sheng et al., 2021)。これらの一般的なバイアスに加えて、評価者としてのLLMは、評価者としての役割に固有の特定のバイアスにも影響を受けます。これには、選択肢の順序に基づいて優先順位を付けるオーダーバイアス(Zheng et al., 2023; Wang et al., 2023c; Koo et al., 2023)、同じLLMによって生成されたテキストを好むエゴセントリックバイアス(Liu et al., 2023 d; Koo et al., 2023)、長いまたは短いテキストを好む長さのバイアス(Zheng et al., 2023; Koo et al., 2023)が含まれます。したがって、評価目的でLLMを利用する場合、LLMの固有のバイアスと評価者としての機能に固有のバイアスの両方を調整することが重要です。この二重の考慮は、NLG評価タスクでのLLMの効果的で公正な使用に不可欠です。
LLMベースの評価者の堅牢性
ほとんどのLLMベースの評価方法は、プロンプトエンジニアリングに大きく依存しています。しかし、NLG評価のためのLLMのプロンプトプロセスは、慎重かつ綿密なプロンプトの作成を要求します。これらのプロンプトのバリエーションは、評価プロセスの結果に大きな違いをもたらす可能性があります。一部の研究では、敵対的なデータセットを構築することによってLLMベースの評価者の堅牢性を調査しています。これらのデータセットは、偽の情報やオフトピックな情報を導入することによって評価者の弾力性をテストするように設計されており、そのような歪みが評価の正確さに与える影響を調べています。彼らの発見は、LLMベースの評価者の堅牢性に大きな改善の余地があることを示しています。例えば、Liu et al. (2023e)は、金の参照と一致しない敵対的なインスタンスを含む対話生成のための2つの敵対的なメタ評価データセットを開発しました。Koo et al. (2023)は、無関係な情報や捏造された統計(例えば、誤解を招く多数派の好み)など、DistractionとBandwagon Effectの2つの敵対的な側面を含むベンチマークを導入しました。これらの結果は、このような敵対的な状況下で多くのLLMが一般的に堅牢性に欠けることを示唆しています。LLMベースの評価者の堅牢性は、重要な探求領域として浮上しており、誤解を招くまたは困難な入力に直面した場合の堅牢性を向上させるためのさらなる研究が必要であることを強調しています。
統一評価
LLMは伝統的な単一タスクに焦点を当てた機能を超えて拡張され、コーディングやオープンエンドの実世界の要件などの複雑な指示を包含しています(OpenAI, 2023; Significant Gravitas)。その結果、より包括的で柔軟な評価方法に対する需要が高まっています。しかし、伝統的な評価方法とほとんどの現在のLLMベースの評価者は、制約されたタスクと評価側面に限定されています(cf. Table 2)。この方向でいくつかの有望な試みが行われています。例えば、MT-Bench(Zheng et al., 2023)は、複数のドメインにわたるマルチターンの質問に対してGPT-4を評価者として使用しています。しかし、これはいくつかの評価側面に限定されており、対話を2ターンのみに制限しています。別のモデルであるAuto-J(Li et al., 2023b)は、データ構築の観点からアプローチしており、ユーザークエリとGPT-4によって生成された応答を幅広い実世界のシナリオで13B LLMにトレーニングしています。これは多様な評価プロトコルに対応しており、58の異なるシナリオで検証され、多くのプロプライエタリーなLLMを上回るパフォーマンスを示しています。ますます複雑になるユーザークエリを考慮して、より統一された同時代的な評価プロトコルを開発することは有望な方向性です。また、統一モデルをトレーニングするための高品質で包括的なデータセットの構築も大きな可能性を秘めています。このような進歩は、LLMのより効果的で普遍的な評価に大きく貢献するでしょう。 6 結論
この調査では、NLGの評価におけるLLMの役割について詳細に調査しました。私たちの包括的な分類法は、評価機能、評価参照、評価タスクの3つの主要な次元に沿って研究を分類します。このフレームワークにより、LLMベースの評価方法論を体系的に分類し、理解することができました。私たちは、さまざまなLLMベースのアプローチについて詳細に調査し、その強みを検討し、違いを比較しました。さらに、NLG評価のための主要なメタ評価ベンチマークをまとめました。この研究を通じて、私たちはこの急速に進化する分野の進歩と現在の課題を強調しました。LLMはNLG出力の評価に革新的な可能性を提供していますが、バイアス、堅牢性、ハイブリッド評価方法の統合、ドメイン固有および統一評価の必要性など、未解決の問題が依然として注目を要しています。これらの課題に対処することで、より一般的で効果的かつ信頼性の高いNLG評価技術への道が開かれるでしょう。このような進歩は、NLG評価だけでなく、LLMのより広範な応用にも大きく貢献するでしょう。