ChatEval論文
論文情報
タイトル:ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
発行日:2023年8月
著者:Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, Zhiyuan Liu
所属:Hong Kong University
論文を読んで感じたこと
introductionに、従来のn-gram評価では、open-endedな文章生成の評価には限界があると説明されてて、わかりやすい、 素晴らしいIntroduction、体系的に他の論文のこともまとまっている
概要
テキストの評価は歴史的に大きな課題を抱えており、多くの労力と時間を要してきました。大規模言語モデル(LLMs)の出現により、研究者たちは人間の評価に代わる代替手段としてLLMsの可能性を探求しています。単一エージェントに基づくアプローチは有望ですが、実験結果からは、現在の効果と人間レベルの評価品質のギャップを埋めるためにさらなる進歩が必要であることが示唆されています。人間の評価プロセスのベストプラクティスがしばしば複数の人間の注釈者が協力して評価に関わることを認識し、私たちは単一エージェントのプロンプト戦略を超えた多エージェント討論フレームワークに頼ります。多エージェントベースのアプローチでは、一群のLLMsが知的な対等物とシナジーを発揮し、複雑なタスクを効率的かつ効果的に扱うための独自の能力と専門知識を活用します。本論文では、さまざまなモデルから生成された回答の品質を自動的に議論し評価する多エージェント審判チーム「ChatEval」を構築します。私たちは、人間がグループ討論のためのブレインストーミングを行う実践的なシナリオから洞察と教訓を得て、ChatEval内の異なるコミュニケーション戦略を提案します。2つのベンチマークタスクにおける実験は、ChatEvalが人間の評価との整合性において優れた精度と相関性を提供することを示しています。さらに、多様な役割プロンプト(異なるペルソナ)が多エージェント討論プロセスにおいて重要であることがわかります。つまり、プロンプトで同じ役割記述を使用すると、性能が低下する可能性があります。定性的な分析によると、ChatEvalは単なるテキストスコアリングを超え、信頼性の高い評価のための人間に似た評価プロセスを提供します。 1章 序論
言語モデルによって生成されたテキストや人間によって書かれたテキストの品質を評価することは、長い間困難な試みであり、一貫して多くの注目を集めています。伝統的な方法論は主に人間によるテキストの注釈に依存していますが、これは時間とコストの面で過度に要求されると考えられています。n-gramに基づく自動評価指標、例えばRouge、BLEU、METEORなどがこの問題に対処するために提案されていますが、これらの方法は特にオープンエンドの生成やドメイン固有の専門知識を要求するタスクの文脈で、人間の判断と比較して比較的弱い相関を示しています。 自然言語処理分野の最近の進歩により、GPT-3のような数十億パラメータ規模のLLMsが登場しました。これらのLLMsは多様な下流タスクで顕著な能力を示し、そのようなモデルを使用してテキストの品質評価の新たな機会を提供しています。さらに、LLMsにZero-Shotの方法でタスクを達成する能力を付与し、人間が提供する指示により良く従うためのさまざまなトレーニングパラダイムが提案されています。これらの進歩は、生成されたテキストを評価するためにLLMsをプロンプトすることを容易にし、評価プロセスで人間の評価者を効果的にシミュレートします。 最近の大規模言語モデル(LLMs)は、テキスト理解と指示に従う能力において印象的な成果を上げています。このため、多くの研究(G-Eval論文; Chiang & Lee, 2023; Gao et al., 2023; Shen et al., 2023)では、オープンエンドの質問や伝統的な自然言語生成(NLG)タスクへの回答の品質を評価するためにLLMを評価者として採用しています。この方法論はLLM-as-a-judge(LLM as a Judge 論文)と呼ばれており、LLMが人間の行動を模倣し、人間の判断と一致する評価を提供することが可能であることを示しています。これは、費用がかかり労力を要する人間の評価に対する拡張可能で透明な代替手段となる可能性があります。 単一の強力なLLMはすでに様々なミッションを遂行できますが、複数のLLMが討論や協力を通じて互いに改善することができるとする新たな研究が現れています(Li et al., 2023a; Liang et al., 2023)。複数のLLMを一つのグループに組み込み、特定の相互作用メカニズムを設計することで、異なるLLMが複数ラウンドにわたって独自の回答や思考プロセスを提案し、審議することができます。このアプローチは生成された回答の事実性を高め(Du et al., 2023)、困難なタスクの完了を改善します(Li et al., 2023a; Qian et al., 2023)。さらに、この多エージェントグループはDegeneration-of-Thought(DOT)問題(思考の劣化論文)も解決し、緩和します。 人間の評価プロセスでは、単一の視点に依存することで、結果にバイアスや不安定さをもたらす可能性があります(Karpinska et al., 2021)。これを認識し、最良の実践としては、複数の人間の注釈者が評価に協力することが多いです(Van Der Lee et al., 2019)。この協力的で反復的な人間の評価アプローチから着想を得て、各エージェントが協力的な議論でさまざまなコミュニケーション戦略を採用し、最終的な判断を形成するようにするシステム「ChatEval」を提案します。さらに、評価ダイナミクスを豊かにするために、ChatEval内の各エージェントにはユニークなペルソナが与えられています。この意図的な設計により、各エージェントは異なる視点に焦点を当てたり、特定の専門知識を持ち込むことができます。これにより、集団的な評価はより包括的な視点から恩恵を受け、単一の視点では見落としがちなニュアンスや微妙な点を捉えることができ
ます。このアイデアは主に、「千人の目には千のハムレットがある」という洞察から導かれており、テキスト評価に特に適用される、すべての人が独自の解釈や視点を持っていることを意味します。確かに、これらの異なる視点はハムレットの包括的で多面的な評価を形作ります。この研究のもう一つの基本的な直感は、集合知能(Woolley et al., 2010)や認知シナジー(Luppi et al., 2022)など、社会学や生物学における著名な概念に由来しており、複数の認知プロセスやシステムが相互作用し、協力することで、それぞれが単独で発揮する効果を超える組み合わせ効果を生み出すものです。
私たちの研究の主な貢献は次のとおりです:
1. ChatEvalという多エージェントベースのフレームワークを提案し、図1に示されているように、単一エージェントベースのアプローチと比較して、人間の好みとより一致します。
2. さまざまなコミュニケーション戦略を提案し、多エージェント討論シナリオでの多様な役割プロンプトの必要性を示します。
3. 私たちはライブラリを公開します。これは組み立て可能でスケーラブルに設計されており、研究者が独自のコミュニケーション戦略を容易に実装できるようになっています。これが、コミュニケーションエージェントの分野やそれを超えた研究の進展に貢献することを願っています。
2章 方法論
このセクションでは、ChatEvalの主要なコンポーネントについて詳細に説明します。これには、討論者エージェント、多様な役割仕様、コミュニケーション戦略が含まれ、各コンポーネントの役割と機能について詳細な概要を提供します。討論者エージェント。討論者エージェントは、私たちのフレームワークにおいて最も重要なコンポーネントの一つです。
私たちは、各個別のLLMをエージェントとして扱い、与えられたプロンプトからそれぞれの回答を生成するように求めます。他のエージェントからの回答はチャット履歴として機能し、プロンプトテンプレート内で置き換えられます。エージェントの設定を行った後、グループ討論を開始し、各エージェントは自動的に他のエージェントからの回答を受け取り、それに対して自分の回答を提供します。このプロセスには人間の介入は必要ありません。
多様な役割の仕様。第1章で述べたように、フレームワークにおいても多様な役割の仕様が必要です。すべてのエージェントが共通のプロンプトテンプレートを共有しているにもかかわらず、私たちは役割記述スロットに多様な役割プロンプトを代用し、異なるエージェントに異なる個性を指定しています。私たちはWu et al.(2023)から着想を得て、類似の役割記述を定式化しています。
コミュニケーション戦略。ChatEvalにおいて、チャット履歴の維持方法も重要な問題です。私たちの研究では、チャット履歴の維持を示すためにより直感的な用語であるコミュニケーション戦略を使用しています。端的に言えば、異なるコミュニケーション戦略は、チャット履歴を維持し、操作するさまざまなアプローチと見なすことができます。図2に示されているように、私たちは主に3つの異なるコミュニケーション戦略を設計し、以下のように説明しています:
1. One-By-One(一つずつ)。討論の各ラウンドで、討論者エージェントは設定された順番で交代し、現在の観察に基づいて自分の回答を生成します。討論者エージェントが回答する際、私たちは他のエージェントが以前に言ったことを直接そのチャット履歴スロットに連結します。
2. Simultaneous-Talk(同時会話)。一つずつの戦略とは異なり、私たちは同時会話と呼ばれる代替のコミュニケーション戦略を実施します。この戦略では、討論者エージェントは発言順の影響を無効にするため、討論の各反復で非同期に回答を生成するように促されます。
3. Simultaneous-Talk-with-Summarizer(同時会話にサマライザーを加えたもの)。この戦略と同時会話の主な違いは、別のLLMをサマライザーとして追加的に使用することです。討論の各反復の終わりに、この追加のLLMにこれまで伝えられたメッセージを要約するように促し、この要約をすべての討論者エージェントのチャット履歴スロットに連結します。Du et al.(2023)などの以前の研究とは異なり、私たちは討論の終わりに討論者エージェントに合意に達するように明示的に求めません。回答形式が直接比較に依存する場合は、さまざまな注釈者の多数決から最終結果を導き出します。一方、回答形式が直接スコアを要求する場合は、複数の注釈者から得られた平均スコアを計算します。この方法論的
アプローチは、私たちの評価プロセスの公平性とバランスを保証します。
3章 実験
私たちはChatEvalを2つのベンチマーク、FairEvalとTopical-Chatで評価します。これらはそれぞれオープンエンドの質問応答と対話応答生成のカテゴリを代表しています。
3.1 実装の詳細
私たちは、OpenAIのGPTファミリーからのモデルをChatEvalのLLMsとして使用し、再現性を確保するために温度を0に設定しました。この選択の背景には、これらのモデルが世界で最も先進的で強力なモデルの中にあるという、その卓越したパフォーマンスがあります。さらに、APIを通じたアクセシビリティと使いやすさにより、研究中にモデルを直接呼び出して操作することが大幅に簡素化されます。現在の研究では、同種のLLMグループに焦点を当てています。つまり、与えられた多エージェントグループ内のすべてのLLMは、すべてGPT-4またはすべてChatGPTの同じGPTファミリーモデルに属しています。将来の研究において異種グループの可能性を認識しており、強いモデルと弱いモデルが多エージェント設定でどのように協力できるかについて魅力的な洞察を提供する可能性があります。
3.2 ベンチマーク
異なるカテゴリとベンチマークの詳細な紹介は以下の通りです:
オープンエンドの質問応答は、NLPおよび生成AIの分野内の重要な要素です。これは、AIシステムが事前に定義されたまたは固定された可能な回答のセットを持たない質問に対して、包括的で詳細で人間らしい回答を提供することを必要とします。Chiang et al.(2023)の研究は、コモンセンス、反事実、コーディングなど、幅広いカテゴリから来る80のオープンエンドの質問を含んでいます。その後、Wu et al.(2023)からの人間の注釈結果を使用して、この論文での実験を行います。彼らは、Vicuna-13BおよびChatGPTによって与えられた回答を、与えられたルールに従って3人の注釈者に評価させ、最終的に注釈者の多数決によって結果を導き出します。
対話応答生成は、与えられた入力対話に対して、首尾一貫した文脈に適した回答を作成するタスクです。私たちは、この研究のためにTopical-Chat(Gopalakrishnan et al., 2019)データセットを引用します。その後、Mehri & Eskenazi(2020)からの人間の注釈結果を使用します。
3.3 ベースライン
ChatEvalを以下の方法と比較します。主な比較部分として、私たちは主に単一エージェントベースの方法に焦点を当てます。単一エージェントとは、LLMに直接クエリを行い、評価のための回答を生成させることを意味します。ChatEvalを表すために多エージェントを使用し、いくつかのエージェントが評価に向けて議論します。このセクションではデフォルトでコミュニケーション戦略を一つずつ、エージェント数を2、討論ターン数を2に設定し、単一エージェントおよび多エージェント設定の両方で位置校正技術を使用します。完全性のために、セクション4でより多くの討論構成について議論します。オープンエンドの質問応答タスクに関しては、FairEval(Wang et al.、2023b)との比較も行います。彼らは、LLMの評価パフォーマンスを向上させるために、複数の証拠校正(MEC)およびバランスの取れた位置校正(BPC)などの戦略を提案しています。対話応答生成タスクに関しては、G-EVAL(Liu et al.、2023b)との比較も行います。彼らはCoTと確率加重合計を自分たちの方法に使用しています。さらに、ROUGE(Lin、2004)、BLEU(Papineni et al.、2002)などのn-gramベースのメトリックや、BERTScore(Zhang et al.、2019)などの埋め込みベースのメトリックの結果も含めています。
3.4 オープンエンドの質問応答の結果
異なる方法と注釈者によって生成された注釈結果を評価するために、Wang et al.(2023b)の評価アプローチを採用します。具体的には、正しく分類されたインスタンスの割合を測定する正確度(Acc.)と、モデルと人間の注釈者の結果間の一致を測定し、偶然による一致の可能性も考慮するカッパ相関係数(Kap.)(McHugh、2012)を計算します。これらのメトリックは注釈の信頼性と一貫性に関する洞察を提供します。私たちは人間の注釈結果とFairEvalの(Wang et al.、2023b)の論文からの最良の結果を採用します。表1に示されているように、異なる注釈者は比較的高い一致に達し、他のLLMベースのアプローチよりも優れたパフォーマンスを発揮します。それでも、71.7%という平均人間の注釈の正確さは、異なる個々の人間の間にある程度の相違が存在することを示し、テキスト評価が確かに困難なタスクであることを明らかにしています。表1の第2部分と第3部分は、それぞれFairEvalの方法の結果と、私たちが提案した方法の結果を示しています。私た
ちは、(1)ChatEvalは評価プロセスのパフォーマンスを向上させ、単一エージェント評価と比較して人間の好みとの整合性が高くなること、特に多エージェントベースの方法はChatGPTの正確度を6.2%、GPT-4の2.5%向上させること、(2)ChatEvalはChatGPTおよびGPT-4の両設定においてFairEvalの最良の結果を超え、私たちが提案した方法の有効性を示すことを発見しました。
3.5 対話応答生成の結果
対話応答生成ベンチマークの評価方法については、Zhong et al.(2022)の方法に合わせ、自然さ、一貫性、エンゲージメント、根拠の4つの側面に関する人間の判断との相関関係であるターンレベルのスピアマンおよびケンドールタウ相関を計算します。結果は表2にあります。表2の第1部分では、n-gramベースのメトリックと埋め込みベースのメトリックが評価されたすべての側面で全体的に貧弱なパフォーマンスを示し、これらの方法が人間の好みをほとんど明らかにできないことを示しています。表2の第2部分では、G-eval(Liu et al.、2023b)の論文からの結果を示しています。彼らはまずLLMに中間思考を生成させ、最終的に出力スコアの確率に基づいた加重合計を計算します。その結果、従来の伝統的なメトリックよりも優れていることを示し、LLMベースの評価者が対話応答生成タスクの評価に効果的で信頼できることを示しています。彼らの方法が良好な結果をもたらしている一方で、私たちが提案したアプローチはGPT-4のパフォーマンスをさらに向上させます。具体的には、ChatEvalは平均スピアマンおよびケンドールタウ相関をそれぞれ0.096(16.3%)および0.057(10.0%)向上させます。さらに、単一エージェント方法と比較して、ChatEvalはChatGPTとGPT-4の両方でパフォーマンスを増幅させ、3.4節の結果と一致する私たちの方法の有効性を示しています。
4章 分析
このセクションでは、ChatEvalに含まれる主要なコンポーネントをさらに探求します。4.1節では多様な役割プロンプトの重要性、4.2節では異なるコミュニケーション戦略の影響、4.3節では役割数と討論ターン数の影響について議論します。特に指定がない限り、分析のためのベースラインとしてFairEvalベンチマークとChatGPTを使用します。
4.1 多様な役割プロンプトの重要性
先に表1と2で、多様な役割構成を備えたChatEvalが評価のパフォーマンスを大幅に向上させることを示しました。評価システムに多様な役割プロンプトを設計することが本当に必要かどうかをさらに検討します。そのために、すべての役割プロンプトを「あなたは今、テキスト評価タスクの審判員であるアノテーターです。」に置き換え、他のプロンプトは変更せずに実験を行います。通信戦略は一つずつ、エージェント数は2、討論ターン数は2で実験します。表3の結果から、同じ役割プロンプトデザインを使用したChatEvalは、多様な役割プロンプトデザインを使用したものよりもパフォーマンスが低く、単一エージェント設定と比較して効果的にパフォーマンスを向上させることができないことが示されており、多エージェント討論フレームワークにおける多様な役割プロンプトデザインの重要性が強調されます。
4.2 コミュニケーション戦略の研究
図2に示されているように、一つずつ、同時会話、サマライザー付き同時会話という3つの異なるコミュニケーション戦略も設計しました。詳細な説明と公式な公式化は付録Bにあります。このセクションでは、多様な役割プロンプトを使用し、3エージェントと2回の討論ターンで実験します。表4に示されているように、一つずつのコミュニケーション戦略がChatGPT設定に対して他の戦略よりも効果的であることがわかります。他の2つのコミュニケーション戦略は一つずつの戦略ほど堅牢ではありませんでしたが、それでも素朴な単一エージェント方式のパフォーマンスを上回ることに留意すべきです。さらに、3つの異なるコミュニケーション戦略間のパフォーマンスの変動は、異なる戦略が評価プロセスの有効性に与える影響を強調し、ChatEvalのさらなる探求と最適化の可能性を明らかにしています。
そのため、今後の研究では、異なるコミュニケーション戦略のより包括的な理解を目指し、それらを効果的に活用してパフォーマンスを向上させる方法を探ることができます。これは、多エージェント討論フレームワークにおいて大幅な改善と新たな洞察をもたらす道となるでしょう。
4.3 役割数と討論ターン数の影響
次に、異なる役割数と討論ターン数の影響を研究します。図3aから、FairEvalデータセット内で役割数とAcc.およびKap.の間に明確な傾向が観察されます。役割数が増加するにつれて、Acc.とKap.も対応して増加します。このパターンは役割数3と4でAcc.が62.5%に達する頂点に達した後、役割数5で減少します。この精度の低下にもかかわらず、Kap.は役割数3と4の間で引き続き上昇し、ChatEval内で多様な役割を組み込む効果を強調しています。逆に、図3bに示されるように、討論ターン数の増加に関しては顕著な上向きの傾向は検出されません。この観察は、Liang et al.(2023)、Du et al.(2023)の発見と一致し、継続的な討論がしばしば成績の停滞または低下につながる一貫した現象を強調しています。この傾向は、増え続けるコンテキストの長さに関連する問題に起因する可能性があり、その結果、パフォーマンスが低下する可能性があります。この洞察は、役割の差別化と討論ダイナミクスのバランスを最適化し、ChatEvalのパフォーマンスを最適化するために必要なより洗練された理解を促します。
4.4 定性分析
表5は、2人のアシスタントが「ストレスを効果的に扱う最も効果的な方法は何ですか?」というオープンエンドの質問に対する回答の評価に向けた討論プロセスを示しています。
アシスタント1の回答:
ストレスを効果的に扱う方法は以下の通りです:
1. 定期的に運動する: 身体活動はストレスを減らし、気分を改善するのに役立ちます。
2. リラクゼーション技術を実践する: 深呼吸、瞑想、ヨガなどはリラックスし、ストレスレベルを減らすのに効果的な方法です。
3. 十分な睡眠をとる: 睡眠不足はストレスレベルを高める可能性があります。毎晩7-8時間の睡眠を目指してください。
4. 健康的な食事をする: バランスの取れた食事はストレスレベルを減らし、全体的な健康を改善するのに役立ちます。
5. 他人とのつながり: 友人や家族との時間を過ごしたり、サポートグループに参加したり、社会活動に参加することで、ストレスレベルを減らし、気分を改善することができます。
6. タイムマネジメント: 仕事を優先順位付けし、スケジュールを作成することで、ストレスを減らし、生産性を高めることができます。
7. プロの助けを求める: ストレスが日常生活に影響を与えている場合は、セラピーまたはカウンセリングなどの専門的な助けを求めることを検討してください。
アシスタント2の回答:
ストレスは、仕事、人間関係、健康、財政問題など、さまざまな要因によって引き起こされることがあります。ストレスを管理するための効果的な方法は以下の通りです:
1. 運動: 定期的な運動はエンドルフィンを放出し、これは自然なストレス解消剤です。散歩やジョギング、ヨガの練習、フィットネスクラスへの参加など、簡単なものでも効果的です。
2. マインドフルネス: 瞑想や深呼吸などのマインドフルネス練習は、ストレスを減らし、集中力を改善するのに役立ちます。
3. 社会的サポート: 家族や友人との時間を過ごしたり、メンタルヘルスの専門家からのサポートを求めたりすることで、つながりを感じ、孤独や孤立感を減らすのに役立ちます。
4. 健康的な食事: 果物、野菜、全粒穀物をたっぷり含むバランスの取れた食事は、ストレスレベルを減らすのに役立ちます。
5. 良質な睡眠: 十分な睡眠は、良好な精神的および身体的健康
に不可欠です。毎晩7-8時間の睡眠を目指し、定期的な睡眠ルーチンを確立してください。
6. タイムマネジメント: 仕事の優先順位を付け、現実的な目標を設定することで、コントロール感と方向性を持ってストレスレベルを減らすことができます。
7. リラクゼーション技術: 漸進的筋弛緩法、アロマセラピー、マッサージなどのリラクゼーション技術は、ストレスレベルを減らし、リラクゼーションを促進するのに役立ちます。
8. プロの助けを求める: ストレスが日常生活に干渉している場合は、セラピストやカウンセラーから専門的な助けを求める時期かもしれません。
これらの回答は、ストレスを扱うための類似の戦略と同様に説得力のある説明を提供しており、品質に関して顕著な差異を見極めることは困難です。この微妙な評価の文脈で、ChatEvalプロセスの重要性が浮き彫りになります。この複雑さをより理解するために、まずChatEvalプロセスを概説し、その後討論中のエージェントの建設的な行動について詳しく検討します。
表5に示されているように、Aliceは最初に、アシスタント2の回答がより詳細な情報を含んでいると指摘し、アシスタント2の方が優れた回答だと好みます。BobはAliceの評価に同意しますが、同時にアシスタント1の回答も簡潔で、考えさせられる質問を行っていると指摘します。Carolは、両方の回答が同様に価値があるというフィードバックを与えます。その後の議論で、Bobはアシスタント1の回答が直接的である一方でアシスタント2の回答が詳細であることを示し、回答の効果は文脈や個人のニーズに依存すべきであると示唆します。討論の最後に、最終的に人間の注釈結果と同一である両方の回答が同じ品質であるという評価結果を抽出します。
この一連の流れから、エージェントが示すいくつかの興味深い行動を特定することができます:(1)
オープニングステートメント:アリスは明確な立場を持って議論を始め、その後の議論の軌道を定める基本的な議論を構築します。 (2) 代替案の提案:ボブは異なる視点を導入し、多様な解釈を考慮する必要性を強調します。これは議論を広げるだけでなく、批判的思考を刺激します。討論の文脈では、代替案の導入は思考の停滞を防ぎ、既存の偏見に挑戦し、見落とされがちな考慮事項を明らかにし、議論が総合的になることを保証します。 (3) 姿勢の維持:アリスが反対意見に直面しても初期の立場を固守することは、コミットメントの例であり、他の参加者に自分の視点を洗練させるよう挑戦します。自分の立場をしっかりと保つことで、アリスは議論に深みをもたらし、他の人々に自分たちの主張をさらに深く掘り下げるよう促し、以前は考慮していなかった側面を考慮することもあります。これにより、会話は堅実で集中し、進化し続けるものとなり、すべての参加者をより高いレベルの関与と批判的思考に駆り立てます。 (4) 合意の模索:議論のクライマックスは、参加者間の相互理解と妥協を通じて達成される集団的合意を明らかにし、提示された各視点の価値を強調します。
上記を踏まえると、ChatEvalは比較ツールとしてだけでなく、対話型自然言語対話の体現としても際立っています。人間の論争的な相互作用をシミュレートすることにより、静的な単一の意見とは異なります。この動的な相互作用は、言語の豊かさと複雑さを示し、単一の視点では見落とされがちなニュアンスを捉えます。したがって、ChatEvalは、人間の議論を反映するだけでなく、協力的な対話の変革的な力を強調する信頼性の高い評価プロセスを提供します。これにより、テキスト評価タスクを信頼性と効果的に実行するための重要な可能性を強調します。
5 関連研究
自動NLG評価 NLGの風景において、生成されたテキストの品質を評価することは特に困難な課題です。長い間、評価は主に人間の注釈に依存していましたが、これは労働集約的でスケーラビリティの問題によって制限されていました。自動NLG評価は、生成されたテキストの品
質を評価するために計算モデルを活用することによってこれらの課題に対処しようとしています。以前の研究は以下のカテゴリーに基づいています:(1) n-gramベースのメトリクス:ROUGE(Lin、2004)は、機械生成の要約と参照要約の間のn-gramの重複量を計算する一連のメトリクスです。BLEU(Papineni et al.、2002)は、両方のテキストのn-gramの共起に基づいて、生成されたテキストを参照翻訳と比較します。上記の方法は簡単で広く使用されていますが、構文的および意味的類似性を捉えることはできません(Stent et al.、2005)。(2) 埋め込みベースのメトリクス:単語の埋め込みは、単語の意味的特性を捉える単語のベクトル表現であり、意味が似ている単語は似たような埋め込みを持っています。一連の作業では、2つのテキスト間の意味的類似性を評価するために単語の埋め込みを活用しています。BERTScore(Zhang et al.、2019)は、BERT(Devlin et al.、2018)などのトランスフォーマーモデルからのコンテキスト化された単語の埋め込みを使用します。BLEURT(Sellam et al.、2020)は、パフォーマンスを向上させるために監視されたトレーニングデータを活用します。MoverScore(Zhao et al.、2019)は、コンテキスト化された単語の埋め込みとEarth Mover's Distance(Rubner et al.、2000)を組み合わせます。(3) LLMベースのメトリクス:大規模なトレーニングデータから派生した豊富な情報を体現するLLMの著しい進歩の中で、評価者としてのLLMの使用は顕著な進歩を遂げています。GPTScore(Fu et al.、2023)は条件付き確率を使用してテキストに品質を表すスコアを割り当てます。Wang et al。(2023a)は、テキストを直接スコアリングするようにChatGPTをプロンプトすることによって、NLG評価者としてのChatGPTの可能性を探求します。Wang et al。(2023c)は、信頼性のあるデータセットを作成し、それを使用して基礎モデルをトレーニングし、より優れた評価者にするためのペアワイズ比較と評価説明を含みます。Bai et al.(2023)は、より公正な評価結果を提供するために分散評価を提案します。G-EVAL(Liu et al.、2023b)は、単一のLLMによって与えられたスコアを調整するための確率加重技術を提案します。
コミュニケーションエージェント 最近、コミュニケーションエージェントの開発に注目が集まっています。これらのエージェントは、ChatGPTやGPT-4のようなLLMによって行われることが多く、自然言語を使用して他のエージェントや人間のユーザーと効果的に対話し、コミュニケーションを取るように設計されています。主な目的は、異なるエージェントが自律的にコミュニケーションし、交渉を行うことで、より複雑なタスクに共同で取り組むためのより生産的で効率的な相互作用と協力を促進することです。いくつかの研究がコミュニケーションエージェントのさまざまな側面を探求しています。Li et al.(2023a)は、エージェントが自律的に協力して複雑なタスクを解決することを可能にする「ロールプレイ」と呼ばれる協力エージェントフレームワークを提案しています。Park et al.(2023)は、キャラクターの説明とメモリーシステムを備えた25個の個別の仮想エンティティで構成されるサンドボックス環境を作成しています。すべてのインテリジェントエージェントは、他のエージェントや環境と自律的に相互作用し、信頼できる人間の行動をシミュレートする能力を持っています。Qian et al.(2023)は、チャットベースのソフトウェア開発フレームワークを確立し、人間のプログラマーを雇うよりもコストを削減してソフトウェア設計を完了し、実行可能なソフトウェアを生産できるようにします。Liu et al.(2023a)は、人間の好みとより適切に整合する信頼性の高いデータセットをキュレートし、社会的に整合したLLMをトレーニングするためにサンドボックス環境を利用します。Liang et al.(2023)とDu et al.(2023)も、翻訳や算数の問題など他のシナリオでマルチエージェント討論フレームワークを利用し、より良い結果をもたらしています。Wang et al.(2023d)は、複数のペルソナの説明によってプロンプトされた単一のLLMを利用してエージェント間のコミュニケーションを可能にする「セルフコラボレーション」と呼ばれる代替手法を提案しています。Mandi et al.(2023)は、複数のLLMを利用してロボット間の調整と戦略計画を強化する、複数のロボットの協力のために設計された新しいフレームワークを提案しています。当社の作業と同時に、Li et al.(2023b)は、当社のアプローチに似たPeer Rank and Discussion(PRD)を提案しています。ただし、彼らはエージェントとして異なるモデル
を使用して評価の異なる次元を探り、代替のコミュニケーション戦略を探求していません。
6 結論
本論文では、ChatEvalがテキスト品質に関する評価性能を改善し、人間の好みにより密接に合わせることに貢献していることを示す証拠を提示します。私たちは、多様な役割の明確化の必要性を強調し、ChatEval内の不可欠なコンポーネントとして独自のコミュニケーション戦略を提案します。議論プロセスの定性的分析は、ChatEvalによってテキストがどのように評価されるかについての洞察に満ちた直感を伝え、私たちのアプローチが人間の判断に似た包括的な評価をサポートする能力を裏付け、私たちのフレームワークの信頼性と効果を示しています。