LLMの評価まとめ論文
https://scrapbox.io/files/65c9da151279e40024565e28.png
論文情報
タイトル: A Survey on Evaluation of Large Language Models
発行日:2023年7月
著者:Yupeng Chang, Xu Wang, Jindong Wang, et al
所属:Jilin University, Microsoft Research
論文のポイント
LLMの評価で以下を検証した論文
https://scrapbox.io/files/65cac5ad2477ea0024d964f6.png
What to evaluate: 何を?
自然言語処理(NLP)、倫理/信頼性、自然科学、医療、教育.... Where to evaluate: どこで?
一般タスクのベンチマーク
特定のタスクのためのベンチマーク
医療(MultiMedQA)、世界知識(FreshQA)
倫理的配慮(TrustGPT)、感情反応(EmotionBench)
セキュリティ(SafetyBench)、数学(MATH) How to evaluate: どのように?
自動評価
人間評価
6つの評価基準
正確性、関連性、流暢さ、透明性、安全性、人間との一致
LLM評価のための主なベンチマーク
https://scrapbox.io/files/65cab8e4139a4f0025b18213.png
英語でのベンチマークは大量にある。
LLMの自動評価での、主要な指標
https://scrapbox.io/files/65cac4c5e4fd810026aaf4c2.png
人間評価の、主な指標
https://scrapbox.io/files/65cac8ae43f94c00253e7cfc.png
論文を読んで感じたこと
長い論文(surveyだからしょうがない)...
意味理解タスクでのLLMのパフォーマンスは不十分なのか
テキスト生成品質において、Chen et al.は、参照テキストがない場合でも、ChatGPTが複数の角度からテキスト品質を評価することに優れており、ほとんどの既存の自動メトリックのパフォーマンスを上回ることを明らかにしました
本当かな?論文はこちら
事実性の評価では、CHatGPTもBingChatも、80%の正確性。まだ15%以上も改善の余地がある
実際にどうする?
概要
大規模言語モデル(LLM)は、その前例のないアプリケーションでのパフォーマンスにより、学術界と産業界の両方で高まる人気を集めています。LLMが研究と日常使用の両方で重要な役割を続けている中、タスクレベルだけでなく社会レベルでのより良いリスク理解のためにも、その評価はますます重要になっています。過去数年にわたり、さまざまな視点からLLMを検討するための大きな努力が払われてきました。この論文では、LLMの評価方法に関する包括的なレビューを提示し、評価対象、評価場所、評価方法の3つの主要な次元に焦点を当てています。まず、評価タスクの観点からの概要を提供し、一般的な自然言語処理タスク、推論、医療利用、倫理、教育、自然科学および社会科学、エージェントアプリケーション、およびその他の分野を含みます。次に、「どこで」および「どのように」評価するかについての質問に答えるために、LLMのパフォーマンスを評価する上で重要なコンポーネントである評価方法とベンチマークに深く潜ります。それから、異なるタスクでのLLMの成功例と失敗例をまとめます。最後に、LLM評価において今後直面するいくつかの将来の課題に光を当てます。私たちの目的は、より熟練したLLMの開発を支援するために、LLM評価の領域の研究者に貴重な洞察を提供することです。私たちの主要な点は、LLMの開発をより良く支援するために、評価を重要な学問として扱うべきであるということです。
1. はじめに
最近、大規模言語モデル(LLM)は、学術および産業の両方の領域で大きな関心を引き起こしています。既存の研究によって示されているように、LLMの優れたパフォーマンスは、それらがこの時代のAGIである可能性があることを示唆しています。LLMは、以前のモデルが特定のタスクを解決することに限定されていたのとは対照的に、さまざまなタスクを解決する能力を持っています。一般的な自然言語タスクやドメイン固有のものなど、さまざまなアプリケーションを扱う際のその優れたパフォーマンスにより、学生や患者など、重要な情報ニーズを持つ個人によってますます使用されています。
LLMの成功にはいくつかの理由から評価が非常に重要です。まず、LLMを評価することで、LLMの強みと弱みをよりよく理解することができます。たとえば、PromptBenchベンチマークは、現在のLLMが敵対的なプロンプトに敏感であることを示しているため、より良いパフォーマンスのために慎重なプロンプトエンジニアリングが必要であることを示しています。第二に、より良い評価は、将来のインタラクション設計と実装に触発する可能性のある、人間とLLMの相互作用に対するより良いガイダンスを提供することができます。第三に、LLMの広範な適用可能性は、特に金融機関や医療施設などの安全に敏感なセクターにおいて、その安全性と信頼性を確保することの最優先事項を強調しています。最後に、LLMがより大きくなり、より多くの新たな能力を持つにつれて、既存の評価プロトコルではその能力と潜在的なリスクを評価するのに十分ではないかもしれません。したがって、私たちは、現在の評価プロトコルをレビューし、最も重要なこととして、新しいLLM評価プロトコルの設計に関する将来の研究に光を当てることによって、コミュニティ内でLLMの評価の重要性を高めることを目指しています。 ChatGPTとGPT-4の導入により、自然言語タスク、推論、堅牢性、信頼性、医療アプリケーション、および倫理的考慮事項など、さまざまな要因を含む異なる側面からChatGPTおよび他のLLMを評価することを目指す多くの研究努力がありました。これらの努力にもかかわらず、評価の全範囲をキャプチャする包括的な概要はまだ欠けています。さらに、LLMの進化は評価のための新しい側面も提示し、既存の評価プロトコルに挑戦し、徹底的で多面的な評価技術の必要性を強化しています。既存の研究では、GPT-4をAGIの火花と見なすことができると主張しているものもありますが、その評価アプローチが人間によって作成されたものであるため、他の人々はこの主張に異議を唱えています。 この論文は、大規模言語モデルの評価に関する最初の包括的な調査として機能します。Figure 1に示されているように、私たちは3つの次元で既存の作業を探求します。1) 何を評価するか、2) どこで評価するか、そして3) どのように評価するか。具体的には、「何を評価するか」は、LLMの既存の評価タスクを包含し、「どこで評価するか」は、評価のために適切なデータセットとベンチマークを選択することを関与し、「どのように評価するか」は、適切なタスクとデータセットを考慮した評価プロセスに関係しています。これら3つの次元は、LLMの評価に不可欠です。その後、LLM評価の領域における潜在的な将来の課題について議論します。
https://scrapbox.io/files/65ca1849ae70d6002421dc30.png
この論文の貢献は次のとおりです。
(1) 我々は、何を評価するか、どこで評価するか、どのように評価するかの3つの側面からLLMの評価に関する包括的な概要を提供します。私たちの分類は一般的であり、LLM評価のライフサイクル全体を包含しています。
(2) 何を評価するかに関しては、さまざまな領域の既存のタスクをまとめ、LLMの成功例と失敗例について洞察に富んだ結論を得て、将来の研究のための経験を提供します。
(3) 評価する場所に関しては、現在のLLM評価を深く理解するための評価指標、データセット、およびベンチマークをまとめます。評価の方法については、現在のプロトコルを探求し、新しい評価アプローチをまとめます。
(4) さらに、LLMを評価する上での将来の課題について議論します。より良い評価のための協力的なコミュニティを育成するために、LLM評価の関連資料をGitHubで公開しております。
2 背景
2.1 大規模言語モデル
言語モデル(LMs)は、人間の言語を理解し生成する能力を持つ計算モデルです。LMsは、与えられた入力に基づいて新しいテキストを生成するか、単語の連続の可能性を予測する変革的な能力を持っています。最も一般的なタイプのLMであるN-gramモデルは、前置きコンテキストに基づいて単語の確率を推定します。しかし、LMsはまた、希少または未知の単語の問題、過学習の問題、複雑な言語現象を捉えることの難しさなどの課題に直面しています。研究者はこれらの課題に対処するために、LMのアーキテクチャとトレーニング方法を改善する作業を続けています。 大規模言語モデル(LLMs)は、膨大なパラメータサイズと卓越した学習能力を持つ進化した言語モデルです。GPT-3、InstructGPT、GPT-4など多くのLLMsの背後にあるコアモジュールは、言語モデリングタスクのための基本的な構成要素として機能するTransformer内の自己注意モジュールです。Transformerは、シーケンシャルデータを効率的に処理する能力でNLPの分野を革命し、並列化を可能にし、テキスト内の長距離依存関係を捉えることができます。LLMsの重要な特徴の一つは、与えられたコンテキストまたはプロンプトに基づいてテキストを生成するようにトレーニングされたICL(コンテキスト内学習: In Context Learning)です。これにより、LLMsはより一貫性があり文脈に関連する応答を生成することができ、インタラクティブおよび会話型アプリケーションに適しています。人間のフィードバックからの強化学習(RLHF)もLLMsの重要な側面です。この技術は、人間が生成した応答を報酬としてモデルを微調整することを含み、モデルがその間違いから学び、時間とともにパフォーマンスを向上させることを可能にします。 自己回帰言語モデル、例えばGPT-3やPaLMでは、コンテキストシーケンス𝑋が与えられた場合、LMのタスクは次のトークン𝑦を予測することを目指します。モデルは、コンテキストに条件付けられた与えられたトークンシーケンスの確率を最大化することによってトレーニングされます、すなわち、𝑃(𝑦|𝑋) = 𝑃(𝑦|𝑥1, 𝑥2, ..., 𝑥𝑡−1)、ここで𝑥1, 𝑥2, ..., 𝑥𝑡−1はコンテキストシーケンスのトークンであり、𝑡は現在の位置です。連鎖律を使用することで、条件付き確率は各位置での確率の積に分解することができます:
https://scrapbox.io/files/65ca18c23a39fc00255c3084.png
ここで𝑇はシーケンスの長さです。この方法により、モデルは自己回帰的な方法で各位置の各トークンを予測し、完全なテキストシーケンスを生成します。
LLMsと対話する一般的なアプローチの一つは、プロンプトエンジニアリングであり、ここではユーザーは特定のプロンプトテキストを設計し提供して、LLMsが望ましい応答を生成するか特定のタスクを完了するように導きます。これは既存の評価努力で広く採用されています。人々はまた、質問応答の相互作用に参加することができ、ここでは彼らはモデルに質問をし、答えを受け取るか、または対話の相互作用に参加し、LLMsと自然言語の会話を持つことができます。結論として、トランスフォーマーアーキテクチャ、コンテキスト内学習、およびRLHFの能力を持つLLMsは、NLPを革命し、さまざまなアプリケーションでの可能性を秘めています。
表1は、伝統的なML、ディープラーニング、およびLLMsの簡単な比較を提供します。
https://scrapbox.io/files/65ca1971062d7f0024659796.png
2.2 AIモデル評価
AIモデル評価は、モデルのパフォーマンスを評価する上で不可欠なステップです。標準的なモデル評価プロトコルには、𝑘-分割交差検証、ホールドアウト検証、一つ抜き交差検証(LOOCV)、ブートストラップ、および縮小セットが含まれます。例えば、𝑘-分割交差検証はデータセットを𝑘部分に分割し、一部をテストセットとして使用し、残りをトレーニングセットとして使用します。これにより、トレーニングデータの損失を減らし、比較的正確なモデルパフォーマンス評価を得ることができます;ホールドアウト検証は、データセットをトレーニングセットとテストセットに分割し、計算量は少ないですが、潜在的に大きなバイアスがあります;LOOCVは、テストセットとして1つのデータポイントのみを使用する𝑘-分割交差検証のユニークな方法です;縮小セットは、モデルを一つのデータセットでトレーニングし、残りのデータでテストしますが、計算は単純ですが、適用性は限られています。より信頼性の高いパフォーマンス指標のためには、特定の問題とデータの特性に応じて適切な評価方法を選択する必要があります。
Figure 3は、LLMsを含むAIモデルの評価プロセスを示しています。
https://scrapbox.io/files/65ca1ccc9fe1d40026a7949b.png
大規模なトレーニングサイズのために、深層学習モデルを評価するためのいくつかの評価プロトコルは実行可能ではないかもしれません。したがって、静的な検証セットでの評価は長い間、深層学習モデルのための標準的な選択でした。例えば、コンピュータビジョンモデルは、ImageNetやMS COCOなどの静的テストセットを評価に利用しています。LLMsも、一般的なテストセットとしてGLUEやSuperGLUEを使用しています。 LLMsがさらに人気になり、解釈可能性が低くなるにつれて、既存の評価プロトコルだけでは、LLMsの真の能力を十分に評価するのに十分ではないかもしれません。セクション5で、LLMsの最近の評価について紹介します。
3 何を評価するか
LLMsのパフォーマンスを示すために、どのタスクを評価すべきでしょうか?どのタスクでLLMsの強みと弱点を主張できますか?このセクションでは、既存のタスクを以下のカテゴリに分けます:自然言語処理、堅牢性、倫理、バイアスと信頼性、社会科学、自然科学とエンジニアリング、医療アプリケーション、エージェントアプリケーション(LLMsをエージェントとして使用)、その他のアプリケーション。
3.1 自然言語処理タスク
言語モデル、特に大規模言語モデルの開発背景にある初期の目的は、理解と生成の両方を含む自然言語処理タスクのパフォーマンスを向上させることでした。その結果、評価研究の大半は主に自然言語タスクに焦点を当ててきました。
自然言語理解は、入力シーケンスをよりよく理解することを目的とした幅広いタスクを代表します。私たちは、いくつかの側面からLLMs評価の最近の取り組みをまとめます。
感情分析は、テキストを分析し解釈して感情的な傾向を決定するタスクです。通常は二値(肯定的および否定的)または三値(肯定的、中立、否定的)のクラス分類問題です。感情分析タスクの評価は人気のある方向性です。Liang et al.とZeng et al.は、このタスクにおけるモデルのパフォーマンスが通常高いことを示しました。ChatGPTの感情分析予測パフォーマンスは従来の感情分析方法を上回り、GPT-3.5に近いものです。細かい感情や感情の原因分析では、ChatGPTも優れたパフォーマンスを示します。低リソース学習環境では、LLMsは小さな言語モデルに比べて顕著な利点を示しますが、ChatGPTが低リソース言語を理解する能力は限られています。結論として、LLMsは感情分析タスクで賞賛に値するパフォーマンスを示しています。将来の作業では、リソースの少ない言語での感情を理解する能力を高めることに焦点を当てるべきです。 テキスト分類と感情分析は関連する分野であり、テキスト分類は感情だけでなく、すべてのテキストとタスクの処理を含みます。Liang et al.【114】の研究は、GLM-130Bが雑多なテキスト分類で全体的な精度85.8%と最も性能が良いモデルであることを示しました。YangとMenczer【233】は、ChatGPTが幅広いニュースアウトレットの信頼性評価を生成でき、これらの評価が人間の専門家からの評価と適度な相関を持つことを発見しました。さらに、ChatGPTは二値分類シナリオで受け入れられる精度(AUC=0.89)を達成します。Peña et al.は公共文書のトピック分類問題について議論し、LLMのバックボーンをSVM分類器と組み合わせることが、公共事務の領域での多ラベルトピック分類タスクを行うための有用な戦略であることを示し、精度は85%を超えることを示しました。全体として、LLMsはテキスト分類でうまく機能し、非標準的な問題設定においてもテキスト分類タスクを処理することができます。
自然言語推論(NLI)は、「仮説」が「前提」から論理的に導かれるかどうかを決定するタスクです。Qin et al.は、ChatGPTがNLIタスクでGPT-3.5を上回ることを示しました。また、ChatGPTが事実に基づく入力を処理する際に優れていることもわかり、これは人間のフィードバックを好むRLHFトレーニングプロセスに起因する可能性があります。しかし、Lee et alは、LLMsがNLIの範囲で性能が悪く、さらに人間の不一致を表現するのに失敗することを観察し、LLMsがこの分野で大きな改善の余地があることを示しています。 意味理解は、言語とその関連概念の意味または理解を指します。これには、単語、フレーズ、文の解釈と理解、およびそれらの間の関係の理解が含まれます。意味処理は表面レベルを超え、基礎となる意味と意図を理解することに焦点を当てます。Tao et al.は、イベントの意味に関する理解、推論、予測を網羅するLLMsのイベント意味処理能力を包括的に評価しました。結果は、LLMsが個々のイベントを理解しているが、イベント間の意味の類似性を知覚する能力に制約があることを示しました。推論タスクでは、LLMsは因果関係と意図的関係において堅牢な推論能力を示しますが、他の関係タイプでは比較的弱いパフォーマンスを示します。予測タスクでは、LLMsは文脈情報が増えると将来のイベントに対する予測能力が向上します。RiccardiとDesai【166】は、LLMsの意味的習熟度を探求し、これらのモデルが基本的なフレーズを評価する際に性能が悪いことを示しました。さらに、GPT-3.5とBardは、意味のあるフレーズと無意味なフレーズを区別することができず、一貫して高度に無意味なフレーズを意味のあるものとして分類します。GPT-4は顕著な改善を示しますが、そのパフォーマンスはまだ人間よりも大幅に低いです。要約すると、意味理解タスクにおけるLLMsのパフォーマンスは不十分です。将来的には、この側面から始めて、このアプリケーションのパフォーマンスを向上させることに焦点を当てることができます。
社会知識理解では、Choi et alは、モデルが社会知識の概念を学習し認識するパフォーマンスをどの程度発揮するかを評価し、パラメータの数がはるかに少ないにもかかわらず、BERTなどの微調整された教師ありモデルが、GPT、GPT-J-6Bなどの最先端のLLMsを使用するゼロショットモデルよりもはるかに優れたパフォーマンスを発揮することを明らかにしました。この声明は、パフォーマンスの面で教師ありモデルがゼロショットモデルを大幅に上回り、パラメータの増加がこの特定のシナリオで必ずしもより高いレベルの社会知識を保証するわけではないことを強調しています。
3.1.2 推論
推論のタスクは、知能のあるAIモデルにとって重大な課題を提起します。推論タスクを効果的に処理するためには、モデルは提供された情報を理解するだけでなく、明示的な回答が欠けている場合に推論と推測を利用して答えを導き出す必要があります。表2は、LLMsの推論能力を評価することへの関心が高まっていることを示しており、この側面を探求する記事の数が増えていることが証拠となっています。
https://scrapbox.io/files/65ca3124e91e6b002450774b.png
現在、推論タスクの評価は、数学的推論、常識的推論、論理的推論、およびドメイン固有の推論に大まかに分類されます。
ChatGPTは、大半のタスクでGPT-3.5を上回ることによって、算術的推論において強力な能力を示しています。しかし、数学的推論におけるその習熟度はまだ改善が必要です。記号的推論タスクにおいて、ChatGPTは主にGPT-3.5よりも悪く、これはChatGPTが不確かな反応を引き起こしやすいため、パフォーマンスが低下する可能性があるためです。仮想条件のタスクバリアントにおけるLLMsの低いパフォーマンスを通じて、Wu et al.は、現在のLLMsが抽象的な推論能力においてある制限を持っていることを示しました。抽象的推論において、Gendron et al.は、既存のLLMsが非常に限定的な能力を持っていることを発見しました。論理的推論において、Liu et al.は、ChatGPTとGPT-4がほとんどのベンチマークで従来のファインチューニング方法を上回り、論理的推論におけるその優位性を示しています。しかし、両モデルは新規および分布外のデータを処理する際に課題に直面しています。ChatGPTは、GPT-3.5やBARDを含む他のLLMsほどうまく機能しません。 3.1.3 自然言語生成
自然言語生成(NLG)は、特定のテキストを生成するLLMsの能力を評価します。これには、要約、対話生成、機械翻訳、質問応答、その他のオープンエンド生成タスクなど、いくつかのタスクが含まれます。 要約は、与えられた文に対して簡潔な抽象を学習することを目的とした生成タスクです。この評価において、Liang et al.は、TNLG v2(530B)が両シナリオで最高スコアを達成し、次いでOPT(175B)が2位であることを発見しました。ファインチューニングされたBartは、Zero-ShotChatGPTよりもまだ優れています。具体的には、ChatGPTはtext-davinci-002と同等のゼロショットパフォーマンスを示しますが、GPT-3.5よりも悪いパフォーマンスをします。これらの発見は、特にChatGPTを含むLLMsが要約タスクで一般的なパフォーマンスを持っていることを示しています。 対話タスクにおけるLLMsのパフォーマンスを評価することは、対話システムの開発と人間とコンピュータの相互作用の向上に不可欠です。このような評価を通じて、モデルの自然言語処理能力、コンテキスト理解能力、および生成能力を向上させることができ、よりインテリジェントで自然な対話システムを実現できます。ClaudeとChatGPTは、GPT-3.5と比較して、すべての次元で一般的に優れたパフォーマンスを達成しています。ClaudeとChatGPTのモデルを比較すると、両モデルは異なる評価次元で競争力のあるパフォーマンスを示し、Claudeは特定の設定でChatGPTをわずかに上回ります。Bang et al.による研究は、特定のタスクに特化して完全に微調整されたモデルが、タスク指向および知識ベースの対話コンテキストの両方でChatGPTを上回ることを強調しています。さらに、Zheng et al.は、最大100万サンプルを含む包括的なLLMs会話データセット、LMSYS-Chat-1Mをキュレーションしました。このデータセットは、対話システムを評価し進歩させるための貴重なリソースとして機能します。 LLMsは翻訳タスクのために明示的に訓練されていませんが、それでも強力なパフォーマンスを示すことができます。Wang et al.は、ChatGPTとGPT-4が、人間によって評価された商用機械翻訳(MT)システムと比較して優れたパフォーマンスを示し、ほとんどの文書レベルのNMT方法よりもsacreBLEUスコアで優れていることを示しました。対照的なテストでは、ChatGPTは従来の翻訳モデルと比較して精度が低いことを示します。しかし、GPT-4は、間違った翻訳候補を選択することがあるにもかかわらず、談話知識を説明する堅牢な能力を示します。Bang et al.からの発見は、ChatGPTがX → Eng翻訳をうまく実行するが、Eng → X翻訳を実行する能力に欠けることを示しています。Lyu et al.【130】は、LLMsを使用したMTのいくつかの研究方向を調査しました。この研究はMT研究の進歩に大きく貢献し、翻訳能力を強化するためのLLMsの可能性を強調しています。要約すると、LLMsはいくつかの翻訳タスクで満足のいくパフォーマンスを示していますが、改善の余地がまだあります。例えば、英語から非英語言語への翻訳能力を強化することなどです。
質問応答は、人間とコンピュータの相互作用の分野における重要な技術であり、検索エンジン、インテリジェントカスタマーサービス、QAシステムなどのシナリオで広く応用されています。QAモデルの精度と効率の測定は、これらのアプリケーションに重大な意味を持ちます。Liang et al.によると、評価されたすべてのモデルの中で、InstructGPT davinci v2(175B)は、9つのQAシナリオ全体での精度、堅牢性、および公平性の点で最高のパフォーマンスを示しました。GPT-3.5とChatGPTは、一般的な知識の質問に答える能力において、GPT-3に比べて顕著な進歩を示しています。ほとんどのドメインで、ChatGPTはパフォーマンスの面でGPT-3.5を2%以上上回っています。しかし、ChatGPTはCommonsenseQAおよびSocial IQAベンチマークでGPT-3.5よりもわずかに弱いパフォーマンスをします。これは、十分な情報がない場合に回答を提供することを控えるChatGPTの慎重な性質に起因することができます。VícunaやChatGPTのような微調整されたモデルは、教師ありの微調整がないモデルを大きな差で上回り、ほぼ完璧なスコアで優れたパフォーマンスを示しています。Laskar et al.は、質問に答えたり、テキストを要約したり、コードを生成したり、常識で推論したり、数学の問題を解決したり、言語を翻訳したり、バイアスを検出したり、倫理的な問題に対処したりするなど、さまざまな学術データセットでChatGPTの有効性を評価しました。全体として、LLMsはQAタスクにおいて完璧なパフォーマンスを示し、将来的に社会的、イベント、時間的な常識知識の習熟度をさらに高める可能性を持っています。 他にも探求すべき生成タスクがあります。文体変換の分野では、PuとDembergは、ChatGPTが同じサブセットでFew-Shot学習を行うことにより、以前のSOTA教師ありモデルを上回り、より高いBLEUスコアから明らかであることを示しました。しかし、文体の形式を制御する場合、ChatGPTのパフォーマンスはまだ人間の振る舞いと大きく異なります。執筆タスクでは、Chia et al.は、情報提供、専門的、論争的、創造的な執筆など、さまざまなカテゴリーでLLMsが一貫したパフォーマンスを示すことを発見しました。この発見は、LLMsが執筆能力において一般的な習熟度を持っていることを意味します。テキスト生成品質において、Chen et al.は、参照テキストがない場合でも、ChatGPTが複数の角度からテキスト品質を評価することに優れており、ほとんどの既存の自動メトリックのパフォーマンスを上回ることを明らかにしました。テキスト品質に対する数値スコアを生成するためにChatGPTを使用することは、研究されたさまざまなテスト方法の中で最も信頼性が高く効果的なアプローチとして浮上しました。 3.1.4 多言語タスク
英語が優勢な言語である一方で、多くのLLMsは混合言語のトレーニングデータで訓練されています。多言語データの組み合わせは確かにLLMsに異なる言語での入力処理と応答生成の能力を与え、世界中で広く採用され受け入れられるようにしています。しかし、この技術の比較的最近の出現により、LLMsは主に英語データで評価され、その多言語パフォーマンスを評価する潜在的な見落としが生じています。これに対処するため、いくつかの記事がさまざまな非英語言語での様々なNLPタスクにおけるLLMsのパフォーマンスについて、包括的でオープンで独立した評価を提供しています。これらの評価は、将来の研究とアプリケーションに貴重な洞察を提供します。Abdelali et alは、標準アラビア語NLPタスクでのChatGPTのパフォーマンスを評価し、ほとんどのタスクでゼロショット設定のSOTAモデルと比較してChatGPTのパフォーマンスが低いことを観察しました。Ahuja et al.、Bang et al.、Lai et al.、Zhang et al.は、複数のデータセットを通じてより多くの言語を使用し、より広範なタスク範囲を含むより包括的なLLMs評価を実施しました。これにはBLOOM、Vicuna、Claude、ChatGPT、GPT-4が含まれます。結果は、これらのLLMsが非ラテン言語やリソースが限られた言語に対して性能が低いことを示しました。入力を英語に翻訳し、それをクエリとして使用しても、SOTAモデルと比較して、タスクや言語全体で生成的LLMsは依然として劣るパフォーマンスを示します。さらに、Bang et al.は、ChatGPTが豊かな言語リソースを持つ非ラテン文字言語で書かれた文を翻訳する際に依然として制限に直面していることを強調しました。前述のことから、LLMsにとって多言語タスクには数多くの課題と改善のための大きな機会があることが示されています。将来の研究では、多言語バランスの達成と非ラテン言語やリソースが少ない言語が直面する課題に対処し、世界中のユーザーをより良くサポートすることを優先すべきです。同時に、潜在的な偏見、英語のバイアスやその他のバイアスを軽減するために、言語の公平性と中立性に注意を払うべきです。 3.1.5 事実性
LLMsの文脈における事実性とは、モデルによって提供される情報や回答が実世界の真実や検証可能な事実とどの程度一致するかを指します。LLMsの事実性は、QAシステム、情報抽出、テキスト要約、対話システム、自動ファクトチェックなど、さまざまなタスクや下流アプリケーションに大きな影響を与えます。ここで誤った情報や一貫性のない情報が提供されると、大きな誤解や誤解釈につながる可能性があります。事実性を評価することは、これらのモデルを信頼し効率的に使用するために非常に重要です。これには、既知の事実との一貫性を維持する能力、誤解を招く情報や偽情報(「事実的幻覚」とも呼ばれる)の生成を避ける能力、および事実的な知識を効果的に学習し記憶する能力が含まれます。LLMsの事実性を測定および改善するためのさまざまな方法論が提案されています。
Wang et al.は、NaturalQuestionsおよびTriviaQAデータセットに基づいて開かれた質問に答える能力を調査することによって、InstructGPT、ChatGPT-3.5、GPT-4、BingChatなど、いくつかの大規模モデルの内部知識能力を評価しました。評価プロセスには人間による評価が含まれていました。研究の結果、GPT-4とBingChatが質問の80%以上に正しい回答を提供できる一方で、完全な正確さを達成するためにはまだ15%以上のギャップが残っていることが示されました。Honovich et al.の研究では、現在の事実一致性評価方法のレビューを行い、統一された比較フレームワークの欠如と関連スコアの二項ラベルと比較した限定的な参照価値を強調しました。これに対処するため、彼らは既存の事実一致性タスクを二項ラベルに変換し、特に入力テキストとの事実的な矛盾の有無のみを考慮し、外部知識を考慮に入れませんでした。研究は、自然言語推論と質問生成応答に基づく事実評価方法が優れたパフォーマンスを示し、相互に補完できることを発見しました。Pezeshkpourは、LLMsに特定の知識を含むための新しいメトリックを提案しました。このメトリックは、知識の不確実性の概念を利用して事実性を測定し、LLMsがプロンプトを埋めて回答の確率分布を調査することによって計算されました。この論文は、プロンプトに知識を明示的に含める方法と、知識関連データを使用してLLMsを暗黙的に微調整する方法の2つの知識注入方法について議論しました。このアプローチは、従来のランキング方法を上回り、30%以上の精度向上を達成することを示しました。Gekhman et al.は、要約タスクにおける事実一致性を評価する方法を改善しました。これは、複数のモデルによって生成された要約をLLMsによって注釈付けして事実一致性を確保するために、学生NLIモデルをトレーニングする新しいアプローチを提案しました。その後、トレーニングされた学生モデルは要約の事実一致性評価に使用されました。Manakul et al.は、LLMsが事実的または幻覚的な応答を生成する方法に関する2つの仮説に取り組みました。それは、事実性を評価するために3つの公式(BERTScore、MQAG【134】、n-gram)を使用し、ブラックボックス言語モデルのトークン確率を収集するために代替LLMsを使用することを提案しました。研究は、単に文の尤度やエントロピーを計算するだけで、応答の事実性を検証するのに役立つことを発見しました。Min et al.は、LLMsによって生成されたテキストを個々の「原子」事実に分解し、それらの正確性を評価しました。FActScoreは、F値/F1スコアの計算を通じて推定器のパフォーマンスを測定するために使用されます。この論文は、さまざまな推定器をテストし、現在の推定器がこのタスクを効果的に対処するためにまだ進むべき道のりがあることを明らかにしました。Lin et al.は、モデルが間違いを犯すように設計されたTruthfulQAデータセットを紹介しました。複数の言語モデルが事実的な回答を提供することでテストされました。これらの実験からの発見は、単にモデルサイズを拡大するだけでは必ずしもその真実性を向上させるとは限らず、トレーニングアプローチに関する推奨事項が提供されました。このデータセットは、LLMsの事実性を評価するために広く使用されています。 3.2 堅牢性、倫理、バイアス、信頼性
評価には、堅牢性、倫理、バイアス、信頼性という重要な側面が含まれます。これらの要因は、LLMsのパフォーマンスを総合的に評価する上でますます重要になっています。
3.2.1 堅牢性
堅牢性は、予期しない入力に直面した際のシステムの安定性を研究します。特に、分布外(OOD)および敵対的堅牢性は、堅牢性のための2つの人気のある研究トピックです。 3.2.2 倫理とバイアス
LLMsは、クロールされた訓練コーパスに存在する有害な情報、通常は攻撃的な言葉遣い、ヘイトスピーチ、侮辱、特定の人口統計的アイデンティティ(例えば、性別、人種、宗教、職業、イデオロギー)に対するステレオタイプなどの社会的バイアスを内面化し、拡散し、潜在的に増幅することが見られます。最近では、Zhuo et al.が従来のテストセットとメトリクス用いてChatGPTの有害性と社会的バイアスについて体系的に評価し、ある程度有害なコンテンツを示していることを発見しました。さらに踏み込んで、Deshpande et alはモデルにロールプレイングを導入し、生成された有害性が最大6倍増加することを観察しました。また、このようなロールプレイングは、特定のエンティティに対するバイアスのある有害性を引き起こしました。社会的バイアスを単に測定するだけではなく、Ferraraは、ChatGPTが潜在的に生み出すこれらのバイアスの源、根底にあるメカニズム、およびそれに伴う倫理的な結果を調査しました。社会的バイアスを超えて、LLMsは政治的傾向や性格特性に基づく質問紙、例えばPolitical Compass TestやMBTIテストを用いて評価され、進歩的な見解とENFJの性格タイプへの傾向を示しました。さらに、GPT-3などのLLMsは、Moral Foundation理論の観点から道徳的なバイアスを持っていることが見られました。これらの倫理的問題は深刻なリスクを引き起こす可能性があり、LLMsの展開を妨げ、社会に深刻な悪影響を及ぼす可能性があります。
3.2.3 信頼性
堅牢性と倫理に加えて、信頼性の問題に焦点を当てた作業もあります。2023年の研究であるDecodingTrustでは、Wang et al.は、特にGPT-3.5とGPT-4における信頼性の脆弱性に多面的な探求を行いました。彼らの評価は、典型的な信頼性の懸念を超えて、有害性、ステレオタイプバイアス、敵対的および分布外の堅牢性、敵対的デモンストレーションへの堅牢性、プライバシー、機械倫理、公平性の8つの重要な側面を含みます。DecodingTrustの調査では、新しく構築されたシナリオ、タスク、およびメトリクスの配列を使用しています。GPT-4が標準評価でGPT-3.5よりも改善された信頼性をしばしば示す一方で、同時に攻撃に対してより脆弱であることが明らかにされました。
HagendorffとFabiによる別の研究では、強化された認知能力を持つLLMsが評価されました。これらのモデルは、一般的な人間の直感や認知的誤りを避け、超合理的なパフォーマンスを示すことができることがわかりました。認知反射テストと意味錯覚実験を使用することで、研究者はLLMsの心理的側面についての洞察を得ました。この方法は、以前に特定されなかったかもしれないモデルのバイアスや倫理的問題を評価するための新しい視点を提供します。さらに、【228】による研究は、質問、否定、または誤解を招く手がかりなどの混乱に直面した場合、LLMsの判断の一貫性が顕著に低下するという重要な懸念に注意を喚起します。研究は、この問題を軽減するために設計されたさまざまなプロンプト方法を掘り下げ、その効果を成功裏に実証しました。
LLMsは、一貫性があり、表面的には事実に基づいたテキストを生成する能力があります。しかし、生成された情報には、現実に根ざさない事実的な不正確さや声明が含まれることがあり、これは幻覚として知られています。これらの問題を評価することは、幻覚の発生を減らすためにLLMsの訓練方法を改善するのに役立ちます。大規模視覚モデルにおける錯覚の評価について、Liu et al.は、包括的で堅牢な大規模視覚指示データセットLRV-Instructionを導入しました。GAVIEメソッドを用いて視覚指示の評価を微調整し、実験結果はLRV-InstructionがLLMsにおける錯覚を効果的に軽減することを示しました。さらに、Li et al.は、大規模視覚言語モデルにおける錯覚の評価を行い、実験を通じて視覚指示における物体の分布がLVLMsの物体錯覚に大きな影響を与えることを明らかにしました。LVLMsにおける物体錯覚の評価を強化するために、彼らはPOPEとして知られる投票ベースのクエリ方法を導入しました。この方法は、LVLMsの物体錯覚の評価を改善するための改善された方法を提供します。
3.3 社会科学
社会科学は、経済学、社会学、政治学、法学などを含む、人間社会と個人行動の研究に関与します。社会科学におけるLLMsのパフォーマンスを評価することは、学術研究、政策立案、社会問題解決にとって重要です。このような評価は、社会科学におけるモデルの適用性と品質を向上させ、人間社会の理解を深め、社会進歩を促進するのに役立ちます。
Wu et al.は、社会科学におけるスケーリングと測定の問題に対処するためのLLMsの潜在的な使用を評価し、LLMsが政治イデオロギーに関する意味のある回答を生成し、社会科学におけるテキスト・アズ・データ方法を大幅に改善できることを発見しました。
計算社会科学(CSS)タスクでは、Ziems et al.は、いくつかのCSSタスクでLLMsの包括的な評価を提示しました。分類タスクでは、LLMsはイベント引数抽出、キャラクタートロープ、暗黙のヘイト、共感分類などのタスクで最低の絶対パフォーマンスを示し、40%未満の精度を達成しました。これらのタスクは、複雑な構造(イベント引数)を含むか、LLMsの事前訓練中に学習したものと異なる意味論を持つ主観的な専門家の分類に関与します。逆に、LLMsは誤情報、スタンス、感情分類で最高のパフォーマンスを達成します。生成タスクに関しては、LLMsはしばしばクラウドワーカーによって提供されるゴールドリファレンスの品質を上回る説明を生成します。要約すると、LLMsは従来のCSS研究パイプラインを大いに強化できますが、それを完全に置き換えることはできません。
一部の記事は、LLMsを法律タスクで評価しています。LLMsのゼロショットパフォーマンスは、法律判例の要約において平凡です。LLMsには、不完全な文や単語、意味のない文の統合、一貫性のない情報や幻覚情報など、より深刻なエラーがいくつかあります。
3.4 自然科学と工学
自然科学と工学におけるLLMsのパフォーマンスを評価することは、科学研究、技術開発、工学研究におけるアプリケーションと開発をガイドするのに役立ちます。
3.4.1 数学
基本的な数学問題に対して、ほとんどの大規模言語モデル(LLMs)は加算と減算に熟達しており、乗算にもある程度の能力を持っています。しかし、除算、指数関数、三角関数、対数関数に関しては課題があります。一方で、LLMsは小数、負の数、無理数の取り扱いには熟達しています。パフォーマンスの面では、ChatGPTとGPT-4が他のモデルを大きく上回り、数学的タスクを解決する能力の優位性を示しています。これら2つのモデルは、大きな数(1e12を超える)や複雑で長い数学的クエリを処理する際に顕著な利点を持っています。GPT-4は、除算と三角関数の能力が優れていること、無理数の適切な理解、長い式の一貫したステップバイステップの計算により、ChatGPTを上回り、精度を10パーセントポイント増加させ、相対誤差を50%削減しました。
複雑で難しい数学問題に直面した場合、LLMsは満足のいくパフォーマンスを示しません。特に、GPT-3はほぼランダムなパフォーマンスを示し、GPT-3.5は改善を見せ、GPT-4が最も優れたパフォーマンスを示します。新しいモデルで進歩が見られるものの、専門家と比較したピークパフォーマンスは相対的に低く、これらのモデルは数学研究に従事する能力を欠いていることに注意することが重要です。代数操作と計算の特定のタスクはGPTにとって依然として課題を提起しています。GPT-4がこれらのタスクで低いパフォーマンスを示す主な理由は、代数操作のエラーや関連するドメイン固有の概念を取り出す際の困難です。Wu et alは、高校の難しい競技問題でのGPT-4の使用を評価し、カテゴリーの半分で60%の精度に達しました。中級代数と前計算は、約20%の低い精度率でしか解決できません。ChatGPTは、微分とその応用、Oxyz空間計算、空間幾何学を含むトピックに関する質問にうまく答えることができません。DaoとLe、Wei et al.は、タスクの難易度が上がるにつれてChatGPTのパフォーマンスが悪化することを示しました:認識レベルの質問の83%、理解レベルの62%、適用レベルの27%、最も高い認知複雑性レベルの10%のみを正確に回答しました。より高い知識レベルの問題は複雑であり、深い理解と問題解決スキルを必要とするため、このような結果は予想されます。
これらの結果は、LLMsの効果が遭遇する問題の複雑さに大きく影響されることを示しています。この発見は、これらの難しいタスクを成功裏に処理できる最適化された人工知能システムの設計と開発に対する重要な意味を持ちます。
3.4.2 一般科学
化学の分野におけるLLMsの応用にはさらなる改善が必要です。Castro NascimentoとPimentelは、ChatGPTの化学に関する理解を評価するために、化学のさまざまな分野から5つの簡単なタスクを提示し、精度は25%から100%の範囲でした。Guo et al.は、8つの実用的な化学タスクを包含する包括的なベンチマークを作成し、各化学タスクにおけるLLMs(GPT-4、GPT-3.5、Davinci-003を含む)のパフォーマンスを評価するために設計しました。実験結果に基づき、GPT-4は他の2つのモデルと比較して優れたパフォーマンスを示しました。【3】は、LLMsが物理問題よりも化学問題で悪いパフォーマンスを示す可能性があることを示しました。これは、この設定における化学問題が物理問題よりも推論の複雑さが低いためかもしれません。一般科学の分野におけるLLMsの評価研究は限られており、現在の発見は、このドメイン内でのLLMsのパフォーマンスにさらなる改善が必要であることを示しています。
3.4.3 工学
工学において、タスクは難易度の昇順で整理することができ、コード生成、ソフトウェア工学、常識的な計画などが含まれます。
コード生成タスクでは、タスク用に訓練された小規模LLMsが競争力のあるパフォーマンスを発揮し、CodeGen-16Bはより大きなパラメータ設定を使用するChatGPTと同等のパフォーマンスを達成し、約78%の一致率に達しました。特定のプログラミング言語の基本的な概念を習得し理解する上での課題に直面しているにもかかわらず、ChatGPTはコーディングレベルで称賛に値するレベルを示しています。具体的には、ChatGPTは動的プログラミング、貪欲アルゴリズム、探索において優れたスキルを開発し、非常に有能な大学生を上回っていますが、データ構造、木、グラフ理論では苦戦しています。GPT-4は、与えられた指示に基づいてコードを生成する高度な能力、既存のコードを理解する能力、コード実行に関する推論、指示の影響をシミュレートする能力、結果を自然言語で明確に表現する能力、疑似コードを効果的に実行する能力を示しています。
ソフトウェア工学タスクでは、ChatGPTは一般的にうまく機能し、詳細な回答を提供し、しばしば人間の専門家の出力やSOTAの出力を上回ります。しかし、コードの脆弱性検出や情報検索に基づくテスト優先順位付けなどの特定のタスクについては、現在のバージョンのChatGPTは正確な回答を提供できず、これらの特定のタスクには適していません。 常識的な計画タスクでは、LLMsは、人間が得意とするシンプルな計画タスクでさえもうまく機能しない場合があります。Pallagani et al.は、考慮されるすべてのドメインで最短の推論時間を持つ最良のパフォーマンスを示すCodeT5が最も優れていることを示しました。さらに、計画の一般化の能力を探求し、その一般化能力が限定的であることを発見しました。LLMsはシンプルな工学タスクを処理することができますが、複雑な工学タスクではパフォーマンスが低下します。
3.5 医療アプリケーション
最近、医療分野におけるLLMの応用が大きな注目を集めています。その結果、このセクションでは、医療応用におけるLLMの実装に専念する進行中の努力の包括的なレビューを提供することを目指しています。これらの応用を表5に示されているように、医療問い合わせ、医療検査、および医療アシスタントの3つの側面に分類しました。これらのカテゴリの詳細な検討により、LLMが医療ドメインにもたらすことができる潜在的な影響と利点を理解することができます。
3.5.1 医療問い合わせ
医療問い合わせにおけるLLMの評価の重要性は、医療専門家と患者が高品質の医療情報を必要とするニーズに対して、正確で信頼性の高い医療回答を提供することにあります。表5に示されているように、医療分野におけるLLMの評価の大部分は医療問い合わせに集中しています。
https://scrapbox.io/files/65caaeaa8cca0f00230783b0.png
ChatGPTは、遺伝学、放射線腫瘍物理学、バイオメディシン、および他の多くの医療分野を含むさまざまな医療問い合わせに対して比較的正確な情報を生成し、一定の範囲で医療問い合わせの分野での有効性を示しています。限界として、Thirunavukarasu et al.は一次ケアにおけるChatGPTのパフォーマンスを評価し、学生の総合評価での平均スコアが合格点を下回っていることを発見し、改善の余地があることを示しています。Chervenak et al.は、ChatGPTが生殖に関連する臨床プロンプトで既存のソースに類似した回答を生成できる一方で、信頼性のあるソースの引用におけるその限界と情報の捏造の可能性が臨床的な有用性を制限していることを強調しました。
3.5.2 医療検査
Gilson et al.による研究は、United States Medical Licensing Examination (USMLE)を通じて医療検査評価におけるLLMのパフォーマンスを評価しました。ChatGPTがUSMLEステップ1およびステップ2の試験問題に答えるパフォーマンスを、新しい複数選択問題セットを使用して評価しました。結果は、ChatGPTが異なるデータセットで様々な精度を達成していることを示しています。しかし、NBME-Free-Step1およびNBME-Free-Step2のデータセットでは、正解と比較して文脈外の情報の存在が少ないことがわかりました。Kung et al.は、ChatGPTがこれらの試験で合格基準に達成または接近していることを示し、モデルは高い一貫性と洞察を示し、医療教育および臨床意思決定を支援する潜在性を示しています。ChatGPTは、医療の質問に答え、説明を提供し、意思決定プロセスを支援するツールとして使用できます。これは、医学生と臨床医に教育および臨床実践における追加のリソースとサポートを提供します。さらに、Sharma et al.は、ChatGPTによって生成された回答がGoogle検索結果と比較してより文脈を意識しており、より優れた演繹推論能力を持っていることを発見しました。
3.5.3 医療アシスタント
医療支援の分野では、消化器疾患の同定、認知症診断、COVID-19文献の評価の加速、および医療における全体的な潜在性を含む、LLMの潜在的な応用が示されています。しかし、オリジナリティの欠如、高い入力要求、リソースの制約、回答の不確実性、誤診および患者のプライバシー問題に関連する潜在的なリスクなど、制限と課題もあります。
さらに、いくつかの研究では、医療教育分野におけるChatGPTのパフォーマンスと実現可能性を評価しています。Oh et al.の研究では、特にGPT-3.5およびGPT-4モデルのChatGPTが、外科臨床情報の理解と外科教育およびトレーニングへの潜在的な影響について評価されました。結果は、GPT-3.5の全体的な正確性が46.8%、GPT-4が76.4%であり、2つのモデル間の顕著なパフォーマンスの違いを示しています。特に、GPT-4は異なるサブスペシャリティ全体で一貫して良好なパフォーマンスを発揮し、複雑な臨床情報を理解し、外科教育およびトレーニングを強化する能力を示唆しています。Lyu et al.の別の研究は、放射線レポートを簡単に理解できる言語に翻訳するためにChatGPTを使用する臨床教育の実現可能性を探求しています。その結果、ChatGPTは放射線レポートをアクセスしやすい言語に効果的に翻訳し、一般的な推奨事項を提供することが示されました。さらに、ChatGPTの品質はGPT-4と比較して改善されていることが示されました。これらの発見は、臨床教育におけるLLMの使用が実現可能であることを示唆していますが、制限を克服し、その完全な潜在能力を解き放つためにはさらなる努力が必要です。
3.6 エージェントアプリケーション
一般的な言語タスクにのみ焦点を当てるのではなく、LLMはさまざまなドメインで強力なツールとして利用できます。LLMに外部ツールを装備することで、モデルの能力を大幅に拡張できます。ToolLLMは、オープンソースの大規模言語モデルにツール使用機能を装備するための包括的なフレームワークを提供します。Huang et al.は、一般的なパターンを理解し、指示に従い、文脈に基づいて学習することができるKOSMOS-1を紹介しました。MRKL Karpas et al.の研究は、外部の象徴的ツールをいつ、どのように利用するかを理解することの重要性を強調しました。これは、これらのツールが信頼性を持って機能を実行できる場合、特にLLMの能力に依存する知識です。さらに、ToolformerとTALMの2つの別の研究は、ツールの利用を強化するために言語モデルを利用することを探求しました。Toolformerは、特定のAPIの最適な使用法を決定するためのトレーニングアプローチを採用し、得られた結果を後続のトークン予測に統合します。一方、TALMは、テキストベースの方法と区別できないツールを組み合わせて言語モデルを強化し、最小限のツールデモンストレーションによって導かれる「セルフプレイ」と呼ばれる反復技術を使用します。さらに、Shen et alは、LLMを活用して機械学習コミュニティ内のさまざまなAIモデル(例えばHugging Face)を接続するHuggingGPTフレームワークを提案し、AIタスクに対処することを目指しています。
4 評価する場所: データセットとベンチマーク
LLM評価データセットは、さまざまなタスクで異なる言語モデルのパフォーマンスをテストし、比較するために使用されます。これは、セクション3で示されているように、GLUEやSuperGLUEのようなデータセットが、テキスト分類、機械翻訳、読解理解、対話生成などの多様なタスクをカバーし、実世界の言語処理シナリオを模倣することを目指しています。このセクションでは、言語モデルのための単一のデータセットではなく、LLMのためのベンチマークについて議論します。 パフォーマンスを評価するために、さまざまなベンチマークが登場しています。この研究では、表7に示されているように、46の人気のあるベンチマークをまとめています。
https://scrapbox.io/files/65cab8e4139a4f0025b18213.png
各ベンチマークは異なる側面と評価基準に焦点を当てており、それぞれのドメインに貴重な貢献を提供しています。より良い要約のために、これらのベンチマークを一般言語タスクのベンチマーク、特定の下流タスクのベンチマーク、およびマルチモーダルタスクのベンチマークの3つのカテゴリに分けます。
4.1 一般タスクのベンチマーク
LLMは大多数のタスクを解決するように設計されています。この目的のために、既存のベンチマークは異なるタスクでのパフォーマンスを評価する傾向があります。
Chatbot ArenaとMT-Benchは、チャットボットモデルとLLMを異なるコンテキストで評価し、進歩させることに貢献する2つの重要なベンチマークです。Chatbot Arenaは、ユーザーの関与と投票を通じて、さまざまなチャットボットモデルを評価し、比較するプラットフォームを提供します。ユーザーは匿名モデルと関わり、投票を通じて自分の好みを表明できます。このプラットフォームは大量の投票を集め、現実的なシナリオでモデルのパフォーマンスを評価することを容易にします。Chatbot Arenaは、チャットボットモデルの強みと限界について貴重な洞察を提供し、チャットボットの研究と進歩に貢献しています。 一方、MT-Benchは、会話を扱うために特別に設計された包括的な質問を使用して、マルチターンダイアログでLLMを評価します。MT-Benchは、マルチターンダイアログを扱うモデルの能力を評価するために特別に設計された包括的な質問セットを提供します。MT-Benchは、従来の評価方法とは異なるいくつかの特徴を持ち、実世界の設定を代表するダイアログシナリオを模倣することに優れており、モデルの実用的なパフォーマンスのより正確な評価を容易にします。さらに、MT-Benchは、特に複雑なマルチターンダイアログの問いに対処するモデルの能力を測定する上での従来の評価アプローチの限界を効果的に克服します。
特定のタスクや評価指標に焦点を当てるのではなく、HELMはLLMの包括的な評価を提供します。それは言語理解、生成、一貫性、文脈感度、常識推論、ドメイン特有の知識など、さまざまな側面で言語モデルを評価します。HELMは、異なるタスクとドメインで言語モデルのパフォーマンスを総合的に評価することを目指しています。LLMの評価者として、Zhang et al.【252】はLLMEvalを紹介し、これは広範囲にわたる能力評価を含んでいます。さらに、Xiezhi【59】は、さまざまな主題領域で大規模言語モデルの知識レベルを評価するための包括的なスイートを提示します。Xiezhiを通じて行われる評価は、これらのモデルに固有の顕著な限界を研究者が理解するのを助け、さまざまな分野でのその能力をより深く理解するのを容易にします。既存の能力を超えて言語モデルを評価するために、BIG-benchは、数学、幼児期の発達、言語学、生物学、常識推論、社会的偏見、物理学、ソフトウェア開発など、さまざまなドメインをカバーする204の挑戦的なタスクの多様なコレクションを紹介します。これらのタスクは、132の機関からの450の著者によって寄稿されています。 最近の作業は、言語モデルの知識と推論能力を評価するためのベンチマークの開発につながりました。Knowledge-Oriented Language Model Evaluation KoLAは、意味知識の理解と推論における言語モデルの利用を評価することに焦点を当てています。したがって、KoLAは、言語理解と推論における言語モデルの深さを評価するための重要なベンチマークとして機能し、言語理解の進歩を促進します。言語タスクのクラウドソーシング評価を可能にするために、DynaBenchはダイナミックベンチマークテストをサポートします。DynaBenchは、閉ループ統合の効果、分布シフトの特性、アノテーターの効率、専門家アノテーターの影響、および対話的設定における敵対的攻撃に対するモデルの堅牢性を含む、新しい研究方向を探求します。さらに、教育レベルを超えて多分野の知識を学習し、適用する言語モデルの能力を評価するために、最近Multidisciplinary Knowledge Evaluation M3KEが導入されました。M3KEは、中国の教育システム内での知識の適用を評価します。
多様なタスクでLLMを評価するための標準化されたベンチマークの開発は、重要な研究の焦点でした。MMLUは、マルチタスクの文脈でテキストモデルを評価するための包括的なテストスイートを提供します。alpaca_evalは、自動化された評価ベンチマークとして機能し、さまざまな自然言語処理タスクでLLMのパフォーマンスを評価することに焦点を当てています。それは、LLMの能力を測定するための一連の指標、堅牢性の尺度、および多様性の評価を提供します。AlpacaEvalは、多様なドメインでLLMを進歩させ、そのパフォーマンスのより深い理解を促進する上で大きな貢献をしています。さらに、AGIEvalは、人間中心の標準化された試験のドメインで基礎モデルのパフォーマンスを評価するための専用の評価フレームワークとして機能します。さらに、OpenLLM【80】は、さまざまなタスクで異なるLLMモデルのパフォーマンスを比較し、評価するための公開コンペティションプラットフォームとして機能する評価ベンチマークとして機能します。それは研究者にモデルを提出して異なるタスクで競争するように促し、LLM研究の進歩と競争を促進します。 標準的なパフォーマンスを超えたタスクについては、OOD、敵対的堅牢性、およびファインチューニングのために設計されたベンチマークがあります。GLUE-Xは、OODシナリオでのNLPモデルの堅牢性を評価するための統一されたベンチマークを作成するための新しい試みです。このベンチマークは、NLPにおける堅牢性の重要性を強調し、モデルの堅牢性を測定し、強化するための洞察を提供します。さらに、Yuan et al.は、自然言語処理タスクにおける分配外堅牢性を評価するためのベンチマークコレクションであるBOSSを提示します。PromptBenchは、LLMをファインチューニングする際のプロンプトエンジニアリングの重要性に焦点を当てています。それは、異なるプロンプトエンジニアリング技術を比較し、モデルパフォーマンスへの影響を評価するための標準化された評価フレームワークを提供します。PromptBenchは、LLMのためのファインチューニング方法の強化と最適化を促進します。公正かつ公平な評価を確実にするために、PandaLM【216】は、複数の高能力LLMを区別するために特別に設計された差別的な大規模言語モデルとして導入されました。従来の評価データセットが主に客観的な正確さを強調するのに対し、PandaLMは相対的な簡潔さ、明瞭さ、指示への遵守、包括性、および形式性を含む重要な主観的要素を組み込んでいます。 4.2 特定の下流タスクのベンチマーク
一般タスクのベンチマーク以外に、特定の下流タスクのために特別に設計されたベンチマークが存在します。
質問応答ベンチマークは、LLMとその全体的なパフォーマンスの評価において基本的なコンポーネントとなっています。MultiMedQAは、医療試験、医学研究、消費者ヘルスケアの質問に焦点を当てた医療QAベンチマークです。それは、医療QAに関連する7つのデータセットで構成されており、既存の6つのデータセットと新しい1つのデータセットが含まれています。このベンチマークの目的は、臨床知識とQA能力の観点からLLMのパフォーマンスを評価することです。現在の世界知識に関する動的なQAでLLMの能力を評価するために、Vu et al.はFRESHQAを導入しました。検索エンジンから取得した関連性のある最新情報をプロンプトに組み込むことで、FRESHQAでのLLMのパフォーマンスが大幅に向上します。深い対話を効果的に評価するために、Wang et al.は、2つの効率的な対話戦略、Explicit CoTとCoTを取り入れたDialogue CoTを導入しました。
LLMの多様で要求の厳しいタスクでの評価は、最近の研究でかなりの注目を集めています。この目的のために、特定のドメインとアプリケーションでLLMの能力を評価するための専門化されたベンチマークが導入されました。これらの中で、Sawada et al.によって提示されたARBは、複数のドメインにまたがる高度な推論タスクでLLMのパフォーマンスを探ることに焦点を当てています。さらに、LLMにおける倫理的配慮は、最も重要な領域となっています。Huang et al.【79】によってカスタマイズされたTRUSTGPTは、LLMの文脈における毒性、偏見、および価値の一致を含む重要な倫理的次元に対処します。さらに、LLMによる人間の感情反応のシミュレーションは、Huang et al.によるEmotionBenchベンチマークによって強調されたように、改善のための顕著な可能性を持つ分野のままです。セキュリティ評価の観点では、Zhang et al.は、一連の人気のある中国語および英語のLLMのセキュリティパフォーマンスをテストするために特別に設計されたSafetyBenchというベンチマークを導入しました。この評価の結果は、現在のLLMにおける大きなセキュリティの欠陥を明らかにします。知能システムの日常的な意思決定能力を評価するために、Hou et al.はChoice-75を導入しました。さらに、複雑な指示を理解するLLMの適性を評価するために、He et al.はCELLOを導入しました。このベンチマークは、8つの独自の特徴の設計、包括的な評価データセットの開発、およびそれぞれの測定基準とともに4つの評価基準の確立を含みます。
C-Eval【78】などの他の特定のベンチマークは、中国語の基礎モデルの高度な知識と推論能力を評価するための最初の広範なベンチマークです。さらに、Li et al.【108】は、包括的な中国語能力標準としてCMMLUを導入し、さまざまな学術分野での18のLLMのパフォーマンスを評価します。その結果、ほとんどのLLMが中国語環境でのパフォーマンスが最適でないことを示し、改善の余地を浮き彫りにします。M3Exam【250】は、複数の言語、モダリティ、レベルを含む独自かつ包括的な評価フレームワークを提供し、多様な文脈でLLMの一般的な能力をテストします。さらに、GAOKAO-Bench【245】は、中国の高考から取得した質問を使用して、複雑で文脈固有のタスクで大規模言語モデルの熟練度を評価するための包括的な評価ベンチマークを提供します。一方、SOCKET【23】は、LLMが社会知識の概念を学習し、認識するパフォーマンスを評価するために設計されたNLPベンチマークとして機能します。それは、LLMの社会的能力の限界を評価するためのいくつかのタスクとケーススタディで構成されています。MATHは、数学の領域内でのAIモデルの推論と問題解決の熟練度を評価することに集中しています。APPS【68】は、自然言語の仕様に従ってPythonコードを生成する言語モデルの能力を測定するための、より包括的で厳格なベンチマークです。CUAD【71】は、専門家が注釈を付けた、ドメイン固有の法的契約レビューデータセットであり、契約理解タスクでのディープラーニングモデルのパフォーマンスを向上させる潜在的な研究ベンチマークを提示します。CVALUES【230】は、LLMが安全性と責任基準との一致を評価するための人文的評価ベンチマークを導入します。包括的な中国医学の領域では、Wang et al.【211】は、中国語と文化に根ざした医療評価ベンチマークであるCMBを導入しました。それは、英語ベースの医療評価にのみ依存することから生じる可能性のあるローカルコンテキストの不一致に対処します。幻覚評価の領域では、【116】は、幻覚関連の制限に制約されることなく、中国語LLMのテキスト生成のパフォーマンスを評価するために特別に設計されたUHGEvalというベンチマークを開発しました。 既存の評価ベンチマークに加えて、LLM用のツールを利用する効果を評価する研究ギャップが存在します。このギャップに対処するために、API-Bankベンチマーク【109】は、ツール拡張LLM用に特別に設計された最初のベンチマークとして導入されました。それは、53の一般的に使用されるAPIツールと264の注釈付きダイアログ、合計568のAPIコールを含む包括的なツール拡張LLMワークフローを包含しています。さらに、ToolBenchプロジェクト【191】は、一般的な目的のツールの能力を効果的に活用する大規模言語モデルの開発を強化することを目指しています。最適化された指示データセットを作成するプラットフォームを提供することにより、ToolBenchプロジェクトは、言語モデルの進歩を推進し、その実用的なアプリケーションを向上させることを目指しています。マルチターンインタラクションでのLLMを評価するために、Wang et al.【213】は、ツールと自然言語フィードバックを利用するMINTを提案しました。
4.3 マルチモーダルタスクのベンチマーク
マルチモーダル大規模言語モデル(MLLM)の評価のために、MME【46】は、彼らの知覚と認知の適性を評価することを目指す広範な評価ベンチマークとして機能します。それは、慎重に作成された指示-回答ペアと簡潔な指示設計を使用し、公平な評価条件を保証します。大規模な視覚言語モデルを堅牢に評価するために、Liu et al.【126】は、包括的なデータセットを含み、CircularEval評価方法を使用するMMBenchを導入しました。さらに、MMICL【255】は、マルチモーダル入力のための視覚言語モデルを強化し、MMEやMMBenchなどのタスクで優れたパフォーマンスを発揮します。さらに、LAMM【235】は、マルチモーダルポイントクラウドを含む研究を拡張します。LVLM-eHub【231】は、オンラインの競争プラットフォームと定量的な能力評価を使用してLVLMを徹底的に評価します。マルチモーダル大規模言語モデル(MLLM)の生成および理解能力を包括的に評価するために、Li et al.【107】は、SEED-Benchという新しいベンチマークを導入しました。このベンチマークは、19,000の複数選択肢の質問で構成されており、人間の評価者によって注釈が付けられています。さらに、評価は画像やビデオ内のパターンを理解するモデルの熟練度を含む12の異なる側面をカバーします。要約すると、最近の作業は、マルチモーダル言語の研究を進歩させる堅牢なベンチマークと改善されたモデルを開発しました。
5 評価方法
このセクションでは、自動評価と人間評価の2つの一般的な評価方法を紹介します。私たちの分類は、評価基準が自動的に計算できるかどうかに基づいています。自動的に計算できる場合は、自動評価に分類し、そうでない場合は人間評価に分類します。
5.1 自動評価
自動評価は、一般的に最も人気のある評価方法であり、通常は標準的な指標と評価ツールを使用してモデルのパフォーマンスを評価します。人間の評価と比較して、自動評価は集中的な人間の参加を必要とせず、時間を節約するだけでなく、人間の主観的要因の影響を減らし、評価プロセスをより標準化します。
例えば、Qin et al.とBang et alは、多くのタスクを評価するために自動評価方法を使用しています。最近、LLMの発展に伴い、評価を助けるための高度な自動評価技術も設計されています。LinとChen【121】は、LLMとのオープンドメインの会話に対する統一された多次元自動評価方法であるLLM-EVALを提案しました。PandaLM【216】は、「裁判官」として機能するLLMを訓練することで、再現可能で自動化された言語モデル評価を実現できます。自己監督型評価フレームワークを提案することにより、Jain et al.【82】は、新しいデータの手間のかかるラベリングの必要性を排除することで、実世界の展開におけるモデルのより効率的な評価形式を可能にしました。さらに、多くのベンチマークも自動評価を適用しています。例えば、MMLU【70】、HELM【114】、C-Eval【78】、AGIEval【262】、AlpacaFarm【38】、Chatbot Arena【128】などがあります。
自動評価を採用した文献に基づき、自動評価での主要な指標を表9にまとめました。
https://scrapbox.io/files/65cac4c5e4fd810026aaf4c2.png
主要な指標には以下の4つの側面が含まれます:
(1) Accuracyは、与えられたタスクにおいてモデルがどれだけ正確かを測る尺度です。正確性の概念は異なるシナリオで変わる可能性があり、特定のタスクや問題の定義に依存します。Exact Match、F値/F1スコア、ROUGEスコアなど、さまざまな指標を使用して測定できます。 ・Exact Match(EM)は、テキスト生成タスクでモデルの出力が参照回答と正確に一致するかを評価するために使用される指標です。質問応答タスクでは、モデルが生成した回答が手動で提供された回答と完全に一致する場合、EMは1です。そうでない場合は0です。
・F1スコアは、モデルの精度と再現率を組み合わせることで、バイナリ分類モデルのパフォーマンスを評価するための指標です。計算式は以下の通りです:𝐹1 = 2×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑒𝑐𝑎𝑙𝑙 / (𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙)。
・ROUGEは、テキスト間の重複や一致を考慮したテキスト要約や機械翻訳などのタスクのパフォーマンスを評価するために主に使用されます。
(2) キャリブレーションは、モデル出力の信頼度レベルと実際の予測精度との間の一致の度合いに関連します。
・Expected Calibration Error(ECE)は、モデルのキャリブレーションパフォーマンスを評価するために一般的に使用される指標の一つです【60】。Tian et al.【189】は、ChatGPT、GPT-4、Claude 1、Claude 2、Llama2を含むRLHFLMsのキャリブレーションを研究するためにECEを利用しました。ECEの計算には、信頼度に基づいてモデル予測を分類し、各信頼区間内の予測の平均精度を測定します。
・選択的精度とカバレッジのカーブ下面積(AUC)【54】も、一般的に使用される別の指標です。
(3) 公平性は、モデルが異なるグループを一貫して扱っているかどうか、つまり、モデルのパフォーマンスが異なるグループ間で等しいかどうかを指します。これには、性別、人種、年齢などの属性が含まれることがあります。DecodingTrust【201】は、公平性を測定するために以下の2つの指標を使用しています:
・Demographic Parity Difference(DPD)は、モデルの予測が異なる人口グループ間で均等に分布しているかどうかを測定します。予測がグループ間で大きく異なる場合、DPDは高くなり、モデルが異なるグループに対して不公平に偏っている可能性があることを示します。DPDの計算には、モデルの予測と真のラベルが関与し、次の式を使用できます:
𝐷𝑃𝐷 = 𝑃(𝑦ˆ|𝑍 = 1) − 𝑃(𝑦ˆ|𝑍 = 0)、ここで、𝑦ˆはモデルのバイナリ分類予測、𝑍は人口グループの識別子です(通常はバイナリで、男性と女性など2つの異なるグループを示します)、𝑃(𝑦ˆ|𝑍 = 1)と𝑃(𝑦ˆ|𝑍 = 0)はそれぞれ、人口𝑍 = 1および𝑍 = 0で正のクラスを予測する確率を表します。
・Equalized Odds Difference(EOD)は、異なる人口間でモデルが等しいエラーレートを提供することを目指しています、つまり、モデルの予測エラー確率分布が異なる人口に対して類似しています。EODの計算には、真陽性(TP)、真陰性(TN)、偽陽性(FP)、および偽陰性(FN)予測に関連する確率が関与します。EODの式は次のとおりです:𝑚𝑎𝑥{𝑃(𝑦ˆ = 1|𝑌 = 1, 𝑍 = 1) − 𝑃(𝑦ˆ = 1|𝑌 = 1, 𝑍 = 0), 𝑃(𝑦ˆ = 1|𝑌 = 0, 𝑍 = 1) − 𝑃(𝑦ˆ = 1|𝑌 = 0, 𝑍 = 0)}、ここで、𝑦ˆはモデルのバイナリ分類予測、𝑌は真のラベル、𝑍は人口グループの識別子です(通常はバイナリで、2つの異なるグループを表します)、そして𝑃(𝑦ˆ = 1|𝑌 = 1, 𝑍 = 1)は、真のラベルが陽性であり、グループ𝑍 = 1に属する場合にモデルが陽性クラスを予測する確率を示します。
(4) 堅牢性は、さまざまな挑戦的な入力、敵対的攻撃、データ分布の変化、ノイズなどに直面した場合のモデルのパフォーマンスを評価します。
・Attack Success Rate(ASR)は、LLMの敵対的堅牢性を評価するための指標として機能します【206】。具体的には、サンプルのペア𝑥𝑖と基底真理𝑦𝑖を含むデータセットD = {(𝑥𝑖, 𝑦𝑖)}𝑁𝑖=1を考えます。敵対的攻撃方法Aが与えられた入力𝑥に対して、この方法は代理モデル𝑓を攻撃するための敵対的例A(𝑥)を生成し、成功率は次のように計算されます:𝐴𝑆𝑅 = Σ(𝑥,𝑦∈𝐷)I𝑓(A(𝑥))≠𝑦 / Σ(𝑥,𝑦∈𝐷)I𝑓(𝑥)=𝑦、ここでIは指標関数です【203】。 ・Performance Drop Rate(PDR)は、プロンプトの堅牢性を効果的に評価するための新しい統一指標です【264】。PDRは、プロンプト攻撃後の相対的なパフォーマンスの低下を定量化し、式は次の通りです:𝑃𝐷𝑅 = 1−Σ(𝑥,𝑦)∈𝐷M[𝑓(𝐴(𝑃),𝑥),𝑦] / Σ(𝑥,𝑦)∈𝐷M[𝑓(𝑃,𝑥),𝑦]、ここで、𝐴はプロンプト𝑃に適用される敵対的攻撃を表し、𝑀はタスクに応じて異なる評価関数を表します【264】。 5.2 人間による評価
LLMの能力が強化され、一般的な自然言語タスクの標準的な評価指標を超えていることは間違いありません。したがって、自動評価が適していない非標準のケースでは、人間による評価が自然な選択となります。たとえば、BERTScoreなどの埋め込み類似性指標が十分でないオープンジェネレーションタスクでは、人間による評価がより信頼性があります【142】。一部の生成タスクでは特定の自動評価プロトコルを採用できますが、標準的な回答よりも常に生成が改善される可能性があるため、これらのタスクでは人間による評価がより好まれます。
人間による評価は、人間の参加を通じてモデルが生成した結果の品質と正確性を評価する方法です。自動評価と比較して、人手による評価は実際のアプリケーションシナリオに近く、より包括的で正確なフィードバックを提供できます。LLMの手動評価では、通常、専門家、研究者、または一般ユーザーなどの評価者がモデルによって生成された結果を評価するために招待されます。例えば、Ziems et al.【269】は生成のために専門家の注釈を使用しました。人間による評価によって、Liang et al.【114】は6つのモデルにおける要約と偽情報シナリオを評価し、Bang et al.【6】は類推推論タスクを評価しました。Bubeck et al.【15】はGPT-4を使用した一連の人間が作成したテストを行い、GPT-4が複数のタスクで人間のパフォーマンスに近い、またはそれを超えるパフォーマンスを発揮することを発見しました。この評価では、人間の評価者がモデルのパフォーマンスを実際にテストして比較する必要があり、自動評価指標を通じてモデルを評価するだけではありません。人間による評価には高い変動性と不安定性があることに注意が必要で、これは文化的および個人的な違いによるものかもしれません【155】。
実用的なアプリケーションでは、これら2つの評価方法が実際の状況と組み合わせて検討され、検討されます。
LLMの人間による評価方法を探求するには、評価の信頼性と正確性を保証するためにさまざまな重要な要因に注意深く注意を払う必要があります【178】。表10は、評価者の数、評価基準、および評価者の専門知識レベルを含む人間による評価の基本的な側面の簡潔な概要を提供します。主に、評価者の数は、適切な表現と統計的有意性と密接に絡み合っている重要な要因として浮かび上がります。
慎重に選ばれた評価者の数は、精査されているLLMについてより微妙で包括的な理解に貢献し、結果をより広い文脈に信頼性を持って外挿することを可能にします。
さらに、評価基準は人間の評価プロセスの基本的なコンポーネントです。3Hルール(役に立つこと、正直さ、害がないこと)【4】の原則を拡張して、以下の6つの人間の評価基準に詳述しました。これらの基準には、正確性、関連性、流暢さ、透明性、安全性、および人間との一致が含まれます。これらの基準の適用を通じて、構文、意味論、および文脈におけるLLMのパフォーマンスの徹底的な分析が達成され、生成されたテキストの品質のより包括的な評価を可能にします。
(1) 正確性【178】は、生成されたテキストの精度と正確さを評価する重要な基準として際立っています。これは、言語モデルが事実に基づいた情報を生成し、エラーや不正確さを避ける程度を検討することを含みます。
(2) 関連性【261】は、生成されたコンテンツの適切性と重要性に焦点を当てています。この基準は、テキストが与えられた文脈やクエリにどれだけうまく対応しているか、提供された情報が関連性があり、直接適用可能であることを確認することを調査します。
(3) 流暢さ【196】は、言語モデルがスムーズに流れるコンテンツを生成する能力を評価します。流暢なテキストは文法的に正しいだけでなく、読みやすさとシームレスなユーザーエクスペリエンスも保証します。分析者は、モデルが不自然な表現や言語やトピックの突然の変化を避けることができるかどうかを評価し、ユーザーとの効果的なコミュニケーションに貢献します。
(4) 透明性は、言語モデルの意思決定プロセスの明確さと開かれた度合いを掘り下げます。それは、モデルがどのようにして、なぜ特定の応答が生成されるかをユーザーが理解できるように、モデルが思考プロセスをどの程度うまく伝えるかを評価することを含みます。透明なモデルは、その内部動作に洞察を提供します。
(5) 安全性【85】は、生成されたテキストから生じる可能性のある損害や意図しない結果に関連する重要な基準として浮上します。これは、不適切、攻撃的、または有害なコンテンツを生成することを避け、ユーザーの福祉を保護し、誤情報を避ける言語モデルの能力を調査します。
(6) 人間との一致は、言語モデルの出力が人間の価値観、好み、および期待とどの程度一致しているかを評価します。これは、生成されたコンテンツの倫理的な含意を考慮し、言語モデルが社会的規範とユーザーの期待を尊重し、人間のユーザーとの肯定的な相互作用を促進するテキストを生成することを保証します。
最後に、評価者の専門知識レベルは、関連するドメイン知識、タスクの熟知、および方法論的な訓練を含む重要な考慮事項です。評価者に必要な専門知識レベルを明確にすることで、彼らがLLMによって生成されたドメイン固有のテキストを正確に理解し、評価するために必要な背景知識を持っていることを保証します。この戦略は、評価プロセスに厳密さの層を追加し、発見の信頼性と妥当性を強化します。