CoNLI論文
https://scrapbox.io/files/65b0a5123ac0b80024c70823.png
論文情報
タイトル:Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations
発行日:2023年10月
著者:Deren Lei, Yaxi Li, Mengya Hu, Mingyu Wang, Vincent Yun, Emily Ching, Eslam Kamal
所属:Microsoft
論文を読んで感じたこと
難しい...
プロンプトがよくわからない...
概要
大規模言語モデル(LLM)は、関連する文書を背景コンテキストとして与えられた場合に、流暢な自然言語テキストを生成する能力を持っています。この能力はLLMの産業応用を開発する上で大きな関心を集めています。しかし、LLMは提供されたソースによって裏付けられていない「幻覚」を生み出す傾向があります。本論文では、このような根拠のない幻覚を検出し軽減するための階層的な枠組みを提案します。この枠組みは、幻覚検出に「自然言語推論の連鎖(CoNLI)」を使用し、ポスト編集による幻覚軽減を行います。私たちのアプローチは幻覚検出において最先端の性能を達成し、微調整やドメイン特有のプロンプトエンジニアリングを必要とせずにLLMを使用してテキスト品質を向上させます。このシンプルなプラグアンドプレイの枠組みは幻覚検出と軽減に効果的な選択となり、様々なコンテキストで競争力のある性能を達成することを示します。 1 章 序論
大規模言語モデルは、自然言語生成(NLG)において顕著な能力を持っており、これまでにない関心を集めています。これらのモデルは、Bing.com、ChatGPT、Github Copilotなど、幅広いビジネスアプリケーションの基盤となっています。これらのアプリケーションの共通の特徴は、LLMによるテキストからテキストへの生成に依存し、生成された応答がソーステキストとの事実的一貫性を維持することが必要です。したがって、生成された応答の品質を評価する際に、事実的一貫性を確保することは重要な課題です。しかし、LLMはソーステキストから逸脱する幻覚を生み出すという現象がよく知られています。これらの幻覚は、長い入力コンテキスト、関連性のないコンテキストの混乱、複雑な推論など、様々な要因によるものです。この現象は、実世界のアプリケーションにおけるLLMの信頼性に対する重大な課題となっています。 幻覚は一般的に、コンテキスト関連の幻覚、自己矛盾する幻覚、根拠のない幻覚に分類されます。自己矛盾する幻覚はより解決策に依存し、下流タスクごとに異なる振る舞いをします。LLMの応答の信頼性を一般的に向上させるために、私たちは根拠のない幻覚の軽減に焦点を当てています。私たちは、LLM出力のソースとの整合性レベルを「根拠性」と定義します。
多くの既存の研究は、生成されたテキストの根拠性を評価するために、分類やランキングモデルの開発に焦点を当ててきました。これらの検出モデルは根拠性を評価する上で有用ですが、特定のLLM応答の書き換えや根拠性の向上においては限られた有用性を提供しています。
最近の研究では、LLM応答の根拠性を向上させる方法が探求されており、これには、デコード戦略の変更、推論時の自己批判【17, 18】、マルチエージェント討論【19】、ユーザー指定の検索コーパス【20】などが含まれます。これに対して、私たちは、ユーザーがLLMモデルを完全に制御できない場合や追加の外部知識を活用できない場合に、幻覚を減らす方法を研究しています。私たちは、自然言語推論の連鎖(CoNLI)と名付けられた一般的なポスト編集アプローチを提案します。このフレームワークでは、ユーザーは自分自身のテキストからテキストへの入出力とLLM APIエンドポイントを持ってくるだけでよく、(1)文を主張として選択し、(2)LLMに一連の自然言語推論問題を解決させることによって、文レベルおよびエンティティレベルの検出器(与えられたエンティティ検出モデルを使用して)を用いて階層的に幻覚を検出し、(3)幻覚緩和者で検出応答を活用して洗練された応答を得ます。私たちは、最新の幻覚ベンチマーク(合成生成および人間による注釈付き)を使用して、テキスト抽象的要約および根拠のある質問回答シナリオでCoNLIで実験を行いました。私たちの提案するアプローチは、最新のソリューションに対する幻覚検出の改善を示しています。さらに、最終的な洗練された応答は、様々なNLG評価指標および根拠性指標において、最初に提供された応答よりも改善を示しています。私たちの解釈可能で高品質な幻覚検出および軽減フレームワークは、ドメイン非依存のFew-Shotと、元の生の応答の保存を優先するシンプルなポスト編集技術を利用しています。私たちは、私たちの提案するフレームワークが、様々なLLMベースのビジネスアプリケーションに利益をもたらす可能性がある一般的な解決策であると主張します。 2 問題と予備知識
以前の研究は、さまざまな文脈でテキストの正しさを判断するという異なる問題定義と用語を含んでおり、しばしばフリーテキスト生成やテキストからテキストへの生成などの側面を混同しています。幻覚、帰属、事実的一貫性、事実性、事実的正確性、忠実性、真実性などの用語があります。これに対し、私たちは根拠のない幻覚という、テキストからテキストへの生成シナリオで広く発生する現象に特に注目しています。これは、モデルによって生成された誤ったテキストで、ソーステキストと矛盾するか、またはソーステキストに対して検証できないものを指します。
テキストからテキストへの生成では、入力ソーステキストをX、出力の原始的な応答をYrawとし、XとYrawはそれぞれX = {x1, x2, ..., xm}およびYraw = {y1, y2, ..., yn}として、一つ以上の文で構成されます。生成は次のように表されます:
https://scrapbox.io/files/65b0a3b825aa090023c24855.png
現代のアプローチでは、F(·)は主に言語モデルによって駆動されます。一般的な読者が「Xによると、Yrawは真実である」という声明を肯定する場合、YrawはXによって根拠づけられていると言います。逆に、YrawがXと矛盾するか、Xに対して検証できない場合、Yrawは幻覚とみなされます。私たちの目標は、Yrawの根拠のない幻覚を検出し、最小限に抑えることです。重要なのは、生成モデルへの直接アクセスを想定しておらず、F(·)を変更しないことです。代わりに、Yrawを精緻化された応答Yrefinedに編集し、Yrawの本質を保ちながら幻覚を減少させることを目指します。
3 方法論
私たちの解決策は、検出エージェントと緩和エージェントからなる二段階のフレームワークです。これはFigure 1で例を使って説明されています。以下のセクションで各エージェントについて詳細に議論します。
https://scrapbox.io/files/65b0a5033fda0800237b8060.png
3.1 検出エージェント
Yrawから選択された仮説のセットHselected = {hyp1, hyp2, ..., hypn}を公式に定義し、それぞれの仮説に対する理由のセットR = {r1, r2, ..., rn}、仮説の最終判断J = {hallucination, non_hallucination}があり、さらに基本的なイベントJ+ = {hallucination}、J− = {non_hallucination}に分けられます。Oは検出エージェントの出力です。したがって、検出エージェントは次のように定式化できます:
https://scrapbox.io/files/65b0a408cdf0ff0023f8fb25.png
ここで、D(·)を文レベルの検出Dsent(·)とエンティティレベルの検出Dent(·)に階層的に分解します。さらに、Jがペアセットであるため、この検出段階は二項分類として扱うことができます。緩和エージェントの前駆としてだけでなく、このモジュールはテキストからテキストへの生成アプリケーションで原始的な応答の根拠性を評価するために独立して使用することができます。検出エージェントには以下のステップが含まれます。
分割および選択
各原始的な応答Yrawは、NLTK文分割器3を使用して個々の文にセグメント化されます。判断に事実的情報が不足しているか、ノイズと見なされる文はその後排除されます。ベンチマーク比較目的のため、仮説として直接定式化できる短い生成応答については、この排除プロセスをスキップします。私たちは、高度な仮説セレクターの構築を将来の作業として残しています。このステップの後、私たちは仮説セットHselectedを持っています。
文レベルの検出
NLI問題を定式化するために、仮説Hに対する前提としてXを扱います。文レベルの検出は、それぞれの仮説を対応する前提に対して独立して判断し、含意、矛盾、中立として分類します:
https://scrapbox.io/files/65b0a65ca2093c00233fcf5a.png
根拠のない幻覚シナリオでは、NLIの矛盾と中立のカテゴリーはソースと整合していないため、これらの2つのカテゴリーを幻覚とみなします。したがって:
https://scrapbox.io/files/65b0a651c6c24d0024c3d5eb.png
私たちはOsent = O+sent ∪ O−sentに分け、幻覚検出出力O+sent ⊆ H+sent × R+sent × J+と非幻覚検出出力O−sent ⊆ H−sent × R−sent × J−を使用します。私たちはCoT (Chain-of-Thought)を利用し、LLMにソーステキストX内の関連するパッセージを見つけ、理由を導き、結論を出すように誘導します。複雑なプロンプトエンジニアリングなしでドメイン全体での適応性を向上させるために、LLMを本質的なNLI概念とCoT方法論に向けるためにドメイン非依存のNLIFew-Shot例を使用します。私たちの実験で使用した特定のプロンプトは付録Dに詳述されています。 注目すべき点は、Few-Shot例では、与えられた前提に対して、複数の仮説とCoT回答を箇条書きの形式で提供しています。この機能は、複数の主張を単一のプロンプトで送信できるようにするためのバッチ処理サポートのためのものです。これにより、私たちの解決策をよりコスト効率的にすることができます。以下のセクションで述べられているベンチマーク実験では、私たちはファイショット例を維持しますが、バッチ処理を無効にし、一度に一つの主張を判断するために送信します。これは他のアプローチとのリンゴとリンゴの比較を行うためです。 エンティティレベルの検出
文レベルの評価の後、非幻覚とみなされた仮説は、エンティティレベルの検査を受けます。これは、LLMがNLI推論を行う際に、仮説の詳細を見落とし、判断のために表面レベルの意味的特徴により焦点を当てる可能性があるという、私たちの実証的な発見に基づいています。仮説が豊富な事実的詳細を含んでいる場合や、ソーステキストに対して複雑な推論が必要な場合、文レベルの検出は誤った否定的な結論に達する可能性があります。したがって、私たちはエンティティレベルの検出を使用して、非幻覚の仮説H−sentをO−sentで再度確認します。
具体的には、まずエンティティ認識モデル(NER)を活用して、非幻覚の仮説E = NER(H−sent)におけるエンティティを見つけます。次に、それぞれが注目すべきタグ付きエンティティを含む仮説のシーケンスに各仮説を変換します:
https://scrapbox.io/files/65b0a74116a6f30025d5e846.png
ただし、Dsentとは異なり、Dentはタグ付きエンティティにのみ焦点を当て、仮説の他の事実情報を判断する必要はありません。これにより、LLMは文レベルの検出によって出力された非幻覚仮説のすべてのエンティティに対して推論し、判断を下すよう強制されます。単一のhypei ∈ hypEiが幻覚と判断された場合、私たちはエンティティレベルでhypiを幻覚と判断します。
https://scrapbox.io/files/65b0a74b9a08e300232cb927.png
マージング 生成された応答の各文について、検出エージェントの最終判断はO = O+sent ∪ Oentになります。O内の各タプル{(hypi, ri, ji)}においてji = 幻覚の場合、riは単一の文レベルの幻覚理由または単一/複数のエンティティレベルの理由になります。言い換えれば、仮説は、全体的な文の判断とタグ付きエンティティの判断がすべて非幻覚と投票した場合にのみ、非幻覚と判断されます。
3.2 緩和エージェント
緩和エージェントはM : (X, Yraw, O) → Yrefinedとして定式化できます。私たちは幻覚検出の結果Oを緩和エージェントによるこれらの文の書き換えと、検出エージェントによって提供された問題の対処方法を推論するための重要な指針として考慮します。私たちは直接OをYrawを書き換える指示として活用します。
緩和エージェントは、生成された応答のフォーマットを可能な限り保持しようとします。それは検出エージェントからの指示を厳密に信頼し、追加の幻覚に関する推論に従事せず、従って、幻覚の文を削除するか書き換えるかを選択することによって、洗練された応答の流暢さと一貫性を維持することに集中することができます。
使用されたプロンプトは付録Eにあります。
https://scrapbox.io/files/65b0a7ba1b8a700025f0722a.png
4 実験
私たちは実験を2つの部分に分けます。幻覚検出実験では、様々なベンチマークでの私たちの検出エージェントの根拠のない幻覚検出性能を分析し、私たちの検出品質をチェックするために既存のLLMベースおよびモデルベースのアプローチと比較します。幻覚軽減実験では、同じベンチマークで検出エージェントの出力を活用し、緩和エージェントを介して幻覚軽減を行い、テキストからテキストへのメトリックスおよび幻覚メトリックスで前後比較を行います。私たちは以下の2つの質問に答えようとします:
Q1(検出):私たちのCoNLI検出エージェントの性能は、LLMベースおよびモデルベースの幻覚検出方法と比較してどのように異なるか?
Q2(検出および軽減):幻覚軽減を伴うCoNLIの適用は、原始応答に比べてNLGおよび根拠性メトリックスの改善につながるか?
4.1 幻覚検出実験
私たちは、検出エージェントを用いて根拠のない幻覚検出の実験を行います。
4.1.1 データセット
私たちは2種類のデータセットで実験を行います:(1)合成幻覚が生成されたデータセット。これらは、簡単な分析のために定義された幻覚カテゴリを持つ大きなデータセットサイズを持っています。(2)現実の最先端(SOTA)NLGモデル出力応答テキストに手動で注釈付けされた幻覚が含まれているデータセット。これらは合成データより小さいですが、幻覚はLLMの実世界製品で見られる幻覚に近いものです。
合成データセットでは、最近のLLM幻覚評価ベンチマークHaluEVALを使用しています。HaluEvalの要約と質問応答のデータセットのみを使用します。これは、基盤となるソーステキストを含むからです。また、事実的一貫性指標を評価するために従来使用されていた注釈付きデータセットを用いた実験も行いました。これらのデータセットには、FactCCの要約テストセット、SummEval、QAGS-Xsum、QAGS-CNNDMが含まれます。従来の事実的一貫性評価アプローチでは、一貫性スコアを出力し、Spearman相関係数、ROCAUCを評価に使用します。私たちの定義した根拠性シナリオでは、幻覚を二項質問と考えます。したがって、幻覚評価と事実的一貫性評価の両方のデータセットを均一に評価するためにF1を使用します。以下で述べるHaluEvalベンチマークのサブセットと事実的一貫性評価データセットを選択し、以前の研究に従って同じ設定を使用しました。データセットの統計は表1にあります。 HaluSum2130はHaluEvalの要約データセットのサブセットです。各ソーステキストには幻覚と非幻覚の要約のペアが含まれています。LLM実験の実行コストを考慮し、ランダムにサンプルを選択し、また潜在的に有害で敏感な(例えば、憎悪、性的、暴力、自傷)サンプルをフィルタリングして、最近の責任あるLLMの構築トレンドをサポートします。 HaluQA4170はHaluEvalの質問応答データセットのサブセットで、各ソーステキストには幻覚と非幻覚の回答のペアが含まれています。同様に、コンテンツフィルタリングが適用されたランダムサンプルを行います。私たちの提案するNLIアプローチに質問応答を適応させるために、各ソーステキストを前提として、 その関連する回答を仮説として扱い、質問と回答の正確さは無視します。つまり、関連する回答は、質問の正確さや関連性に関係なく、ソースに基づいていると考えることができます。
FactCC503はFactCCのテストセットで、ソーステキストと要約文のペアが含まれています。各要約はSOTAモデルによって生成され、その後、不十分に生成された文を除去して文に分解されます。各文は幻覚または非幻覚として注釈付けされています。
SummEvalとQAGS SummEvalにはCNN/Dailymaillに基づいて構築された1600の例が含まれ、一貫性スコアは0から5の間でラベル付けされています。QAGSデータセットはCNN/Dailymail(QAGS-CNNDM)およびXSUM(QAGS-XSUM)をそれぞれ基に構築され、一貫性スコアは0から1の間です。過去の一貫性研究とは異なり、私たちは検出および軽減の目的のために幻覚をイエスかノーの質問とみなします。したがって、これらのデータセットのラベルを二項に変換します。最大の一貫性のサンプルのみが非幻覚と見なされ、残りはすべて幻覚と見なされます。すべての幻覚は、最近のSOTAモデルの出力で手動で注釈付けされています。 4.1.2 実験セットアップ
LLMセットアップとハイパーパラメーター 私たちは、最大入力トークン数16,384のOpenAIのGPT-3.5-TURBO-16Kおよび最大入力トークン数32,768のGPT-4-32Kで私たちのフレームワークを評価します。私たちはAzure OpenAI ChatGPT APIを使用して実験を行います。ランダム性を減らし、より決定論的な出力を保証するために温度を0に設定します。生成のための最大トークン数を4096に設定し、top_pを0.6に、freq_penaltyとpresence_penaltyの両方を0に設定します。
エンティティ検出セットアップ エンティティレベル検出のNERには、幅広いエンティティカテゴリをサポートするAzure Text Analytics(TA)APIを活用します。利用可能なすべてのエンティティカテゴリの中から、利用可能な検証データセットでの平均パフォーマンスに基づいて最適な9つのエンティティを選択します。各実験データセットが独自の最適なTAカテゴリを持っていることが観察されましたが、CoNLIを一般化するために、すべての検出および緩和実験に同じTAカテゴリを使用します。選択されたTAカテゴリの詳細については、付録Bを参照してください。
評価指標
私たちは二項分類として定義した根拠性タスクに対してF値/F1スコアを使用しました。LLMベースの幻覚検出アプローチは通常、二項予測を出力する一方で、事実的一貫性評価アプローチはより詳細な評価のために多レベルのスコアを出力します。F1を使用することで、両方の測定を統一することができます。私たちはマクロF1とその幻覚および非幻覚における分析を報告しており、幻覚が表1に示されるように偏っている可能性があるためです。 4.1.3 結果
合成幻覚データセットの結果
私たちは表2で結果を示しています。FactCCとAlignScoreは、事実的一貫性スコアとしてアライメント出力ロジットを使用する分類モデルです。これらは、ダウンストリームの微調整の必要性がない汎用的なソリューションを目指しているため、幻覚/非幻覚予測のために0.5の閾値を採用しています。これらのパフォーマンス上限を決定するために、実験されたデータセットで最も優れたパフォーマンスを示したオラクル閾値も調査しました。特筆すべきは、オラクル閾値はデータセットによって異なることです(付録C参照)。一般化のための統一された閾値を確立するために、すべての6つの実験データセットで最も高い平均F1マクロをもたらす平均オラクル閾値を選択し、バランスの取れた一貫した評価を保証します。
HaluEvalの場合、提供された検出ソリューションはタスクに依存しないものではなく、それ自身のデータセットに対して設計されています。したがって、私たちはその合成データセットに合わせた最適な設定でHaluEvalを実行し、注釈付き幻覚データセットでの実験は行いません。HaluEvalを実行する際、GPT-4とGPT-3.5の挙動に顕著な違いが見られました。GPT-4は指示されたファイショットラベルを理解する上での課題があり、予期せぬ大幅なパフォーマンス低下が発生しました。この問題を軽減するために、元のプロンプトに追加の文を付け加えて調整し、次のようにGPT-4に明示的に指示しました:"幻覚にはYes、非幻覚にはNoと答えてください"。この明確化はHaluEval-GPT4のパフォーマンスの正確性を確保します(*)。
私たちは、CoNLI-GPT4が両方のデータセットと平均で最も高いF1を達成することを観察しました。それはさらに上限オラクル閾値を持つAlignScore-Largeをも上回ります。私たちのCoNLI-GPT3.5は2番目に
良い平均F1を達成し、オラクルを除くすべてのリストされたソリューションよりも優れています。注釈付き幻覚データセットの結果は表3に示されています。CoNLI-GPT4は3つのデータセットと平均で最も良い結果を達成し、QAGS-CNNDMでオラクル閾値を持つAlignScore-Largeの平均を下回るのみです。これは、CoNLIが汎用ソリューションとして、SOTA NLGモデル出力における幻覚の高品質な検出を達成できることを示しています。GPT-4と比較してはるかに小さいモデルであるにもかかわらず、AlignScore-Largeも二項分類のためのオラクル閾値が提供された場合には、適切なパフォーマンスを達成することができるということも言及する価値があります。これは、AUC-ROCおよびSpearman相関係数を測定指標として使用して事実的一貫性評価データセットでの高いパフォーマンスと一致しています。したがって、微調整なしにタスクごとに自動閾値を見つける探索は、評価スコアベースのアプローチにとって興味深いトピックだと思います。このような研究は、二項回答を必要とする幻覚検出および軽減アプリケーションの範囲を広げるスコアベースの方法の適用性を高める可能性があります。Ablation研究 私たちはHaluSum2130、HaluQA4170、およびFactCC503でCoNLIのさまざまなバリアントを実行します。結果は表4に示されています。エンティティ検出のみのアプローチの場合、すべての仮説でエンティティ検出を実行します。デフォルトの階層的アプローチでは、文レベルで幻覚が検出されない仮説に対してのみ、エンティティレベルの検出がトリガーされます。
私たちは、文レベルとエンティティレベルの検出結果が、組み合わせた階層的アプローチと比較して一貫して劣っていることを観察します。さらに、文レベルの結果は一貫してエンティティレベルの結果よりも優れており、これは論理的です。なぜなら、エンティティレベルの検出は各仮説内のタグ付けされたエンティティのみに焦点を当てるのに対し、文レベルの検出は仮説全体を考慮するからです。したがって、エンティティレベルの検出は、文レベルの検出器への貴重な補完と見なすことができます。これらの発見は、GPT-3.5およびGPT-4の設定の両方で真実です。
4.2 幻覚軽減実験
このセクションでは、検出エージェントと緩和エージェントを組み合わせたCoNLIのパフォーマンスをエンドツーエンドで評価する実験を行います。検出実験のセットアップと同じLLMとハイパーパラメータを使用しました(4.1.2節参照)。
4.2.1 実験セットアップ
データセット
幻覚検出の文脈での後続実験として、私たちはHaluSum2130、HaluQA4170の合成データセットを大規模な実験に引き続き使用します。さらに、10種類のSOTA NLGモデルからの幻覚を含む、人間による注釈が付けられたFactCC503データセットを取り入れました。これは、言及されている注釈付き幻覚データセットの中で最も包括的です。
HaluSum2130およびHaluQA4170では、非幻覚要約を非幻覚の基準として使用します。FactCC503の場合、文レベルの要約データを包括的な要約に集約します。その後、私たちは検出エージェントの判断を文ごとに適用して完全な要約を洗練し、基準の要約と比較します。
評価指標
テキスト応答品質を従来のNLG指標(Rouge1、Rouge2、RougeL、Bleu-4、BertScore)と幻覚評価指標(FactCCおよびAlignScore-Large)で評価します。さらに、幻覚検出実験で示された高い品質を活用して、幻覚評価のために提案されたCoNLI-GPT4を使用します。各データセットにおけるCoNLI-GPT4スコアは、その検出によって根拠のない幻覚を含まない洗練された応答の割合を示します。
4.2.2 結果
表5にCoNLI適用前後の幻覚軽減結果を示します。合成データセットのHaluSum2130とHaluQA4170では、CoNLIによって洗練された応答で全ての指標が改善されました。質問応答データセットの応答は要約データセットのものに比べて短いため、微細な洗練が評価指標により顕著な影響を与えます。
注釈付きデータセットのFactCC503では、異なるパターンが観察されました。生の応答がNLG指標、特にRougeスコアを最適化するために訓練された最先端のNLGモデルから選択されているため、洗練プロセスの後にRougeスコアがわずかに低下することが確認されました。しかし、BertScoreとBleuスコアの改善も観察されたため、Rougeスコアの低下が必ずしも応答品質の低下を意味するわけではありません。Rougeスコアがよりリコールに焦点を当てている(つまり、生成された応答に基準のn-gramがどれだけ現れるか)ことと、Bleuスコアがよりプレシジョンに焦点を当てている(つまり、生成された応答に基準のn-gramがどれだけ現れるか)ことを考慮すると、Bleuスコアの改善は応答の無関係なトークンが減少していることを意味し、幻覚的なコンテンツの減少を示しています。この仮説は、幻覚評価指標であるFactCC、AlignScore-Large、CoNLI-GPT4の一貫した改善と一致しています。したがって、私たちのCoNLI洗練プロセスは、テキスト品質を維持しながらSOTA NLGモデルの出力における幻覚を効果的に減少させています。
5 関連研究
テキストからテキストへのモデル、特にLLMにおいて幻覚はよく知られた問題であり、LLMを責任を持って現実世界のアプリケーションに適用するためには重要な問題です。最近のいくつかの調査は、このトピックについて包括的な検討を提供しています。
幻覚検出
多くの最近の研究は、事実的一貫性の評価、すなわち幻覚検出と同様のシナリオに焦点を当てていますが、コンテンツが幻覚かどうかの二項予測ではなく、基盤となるソースに対するアラインメントを測定する一貫性スコアを提供します。FactCCは生成された弱教師ありトレーニングデータを用いて分類モデルをトレーニングするために基礎言語モデルを活用します。Zhouらはトークンレベルの幻覚検出を提案し、より細かい粒度の損失を活用して品質を向上させます。AlignScoreは、多様なデータソースを統合することによってアライメント関数の統一トレーニングフレームワークを開発します。LLMベースのアプローチでは、SelfCheckGPTはランタイムで複数のサンプルを生成することによってLLMの自己一貫性を活用し、幻覚を検出します。G-EvalはGPTを活用してNLG指標を提供し、その中には事実的一貫性評価も含まれます。HaluEvalは複数のドメインをサポートし、根拠ありおよび根拠なしの幻覚検出に対するLLM幻覚ベンチマークを提供します。また、GPTを用いたCoTを活用するLLMソリューションも提案しています。 幻覚軽減
幻覚検出に加えて、生成されたテキストにおける幻覚の発生を減らすことに専念する研究も増えています。ChatProtectはLLMによって生成されたテキスト内の自己矛盾する幻覚を検出し、軽減します。CoVe (Chain-of-Verification)は一連の事実検証の質問を通じて幻覚を減少させます。さらに、応答を生成するLLMが実行時の軽減に完全にアクセス可能である場合【16–19】、または外部知識【20】の助けを借りて、幻覚を減少させることができます。 6 結論
この研究では、LLMを効率的に活用して根拠のない幻覚を検出し、プラグアンドプレイの方法で軽減する方法について探求しました。私たちはテキストからテキストへの様々なデータセットに関する広範な実験を行い、幻覚の検出と軽減の両方に取り組みました。私たちは、幻覚検出をNLIタスクの連鎖に定式化するシンプルで効果的なLLMベースのフレームワークを提案します。これは文レベルとエンティティレベルの判断を組み合わせており、その効果が実証されています。重要なことに、その解釈可能な出力は幻覚の軽減にも活用することができます。全体として、私たちのフレームワークの一般化可能性により、調整なしでシームレスなデプロイが可能であり、顕著な検出品質と幻覚の減少を実現し、テキスト品質を維持しています。