Reasoning Implicit Sentiment with Chain-of-Thought Prompting
2024.01.11
著者
https://gyazo.com/3f6615dc34a099a9a45c0f4733a31bad
概要
テキスト内の暗黙的でわかりにくい意見の手がかりを理解する必要がある暗黙的感情分析(ISA)に焦点を当てています。
人間の推理を模倣するために設計された、暗黙的感情分析のためのThree-hop Reasoning (THOR) Chain-of-Thought (CoT)フレームワークを紹介しています。
THOR+Flan-T5(11B)モデルは、SOTA比較で6%以上F1で改善します。
THOR+GPT3(175B)モデルはゼロショット設定で50%以上のF1改善を示しています。
そもそもISA
暗黙的感情分析(Implicit Sentiment Analysis、ISA)は、テキスト内の明示的な感情表現ではなく、隠れたまたは暗黙的な意見や感情を理解することを目的としています。この分析は特に、テキストが直接的な感情表現を含まない場合に重要です。以下に、ISAが必要とされる具体的なシナリオや状況を説明します。
https://gyazo.com/5dc861412422be4a51cf96624e4a44b4
その他の例
製品レビュー: 顧客が製品やサービスについて書いたレビューは、直接的な感情表現よりも隠れた意見や比喩を使うことがよくあります。例えば、「このカメラは羽のように軽い」という表現は、直接的に「良い」とは言っていませんが、肯定的な感情を暗示しています。
社員フィードバック: 社員が職場環境について提供するフィードバックは、直接的な批判を避けるために暗黙的な表現を含むことがあります。例えば、「チームのコミュニケーションがもっと流れると良い」というコメントは、間接的にコミュニケーションの問題を示唆している可能性があります。
THORフレームワーク
THOR(Three-hop Reasoning)フレームワーク
THORは、暗黙的感情分析のための三段階の推論プロセスを採用しています。このプロセスは、テキスト中の暗黙の側面、意見、および感情の極性を順に誘導することを目的としています。具体的には、次の3つのステップで構成されています。
https://gyazo.com/3042703db3b911d7591f24b5a375179f
1. 側面の特定(Aspect Identification)
目的: テキスト内の議論または評価の対象となる側面を識別する。
例: 「このレストランの雰囲気はとてもリラックスできる」の場合、「レストランの雰囲気」が側面となります。
https://gyazo.com/fc93bc0a00f6ac4e7d59c7b6fe9be99c
2. 意見の抽出(Opinion Extraction)
目的: 識別された側面に関連する意見や評価を抽出する。
例: 上記の「このレストランの雰囲気はとてもリラックスできる」の文では、「リラックスできる」という表現が意見を反映しています。
https://gyazo.com/fccdc214bd0d50ee983adb1fff9a2f95
3. 感情極性の決定(Sentiment Polarity Determination)
目的: 抽出された意見から、その感情の極性(ポジティブ、ネガティブ、ニュートラル)を判断する。
例: 「リラックスできる」という意見は、一般的にポジティブな感情と解釈されます。
THORフレームワークのその他の例
レビューが「このスマートフォンのバッテリーは一日中持つ」と述べています。THORフレームワークを使用してこの文を分析すると、以下のようなプロセスが行われます
Aspect Identification: この文では「スマートフォンのバッテリー」が側面として特定されます。
Opinion Extraction: 「一日中持つ」という表現が意見として抽出されます。
Sentiment Polarity Determination: 「一日中持つ」という意見は、バッテリーの持続力に関してポジティブな評価と解釈されるため、ポジティブな感情極性と判断されます。
その他使用されている手法
Enhancing Reasoning via Self-consistency
各ステップにおいて出力を複数回出力させて、多数決を取る。各ステップにおける最大の出現頻度の出力を次のステップに渡す
Reasoning Revising with Supervision
各ステップの出力を通常通り出力する。すべての出力を結合して最後の感情極性の正解のみラベルと比較をして Finetune をする
実験と結果
論文はSemEval14のラップトップとレストランのデータセットで実験を行っています。
THORは監視およびゼロショットのセットアップの両方で、最高性能のベースラインを大幅に上回っていることを示しています。
大規模言語モデル(LLM)は、THORでのより顕著な改善を示しています。
データセット: SemEval-2014のLaptopとRestaurantデータセットを使用しました。明示的および暗黙的感情を含む文で構成されています。
モデル: BERTとFlan-T5(250M, 780M, 3B, 11B)とGPT-3(350M, 1.3B, 6.7B, 175B)の異なるバージョンを使用しました。
評価基準: F1スコア
Results on Supervised Fine-tuning
https://gyazo.com/c7733c18d0c1544b421394b64a79b918
実験: Flan-T5ベースのTHORは、SemEval-2014のLaptopとRestaurantデータセットでFine-tuningして評価されました。
結果: THORは、現行の最高性能のベースラインを6%以上のF1スコアで上回りました。具体的には、Flan-T5 (11B)モデルでRestaurantデータセットでは7.45%、Laptopデータセットでは5.84%の平均改善が見られました。
考察: Self-consistencyとReasoning Revisingの両方がTHORの効果に重要であり、モデルの推論能力を高め、より正確な感情分析を可能にしています。
Results on Zero-shot Reasoning
https://gyazo.com/04b0e7994a67db225675297efdcf7392
実験: GPT-3ベースのTHORはゼロショット設定で評価しました (Fine-tuning での実験である上記との差分)
結果: THORは、最高の既存ベースラインを50%以上のF1スコアで上回りました。特にGPT-3 (175B)モデルでは、Restaurantデータセットで51.94%、Laptopデータセットで50.27%の平均改善が見られました。
考察: この結果は、THORがゼロショット設定においても高い効果を発揮することを示しており、特に大規模な言語モデルでの性能向上が顕著です。
Influence of Different Model Sizes of LLMs
https://gyazo.com/3bb4967d0d8d73e092d76f03e4f46e3d
実験: Flan-T5とGPT-3の異なるサイズのモデル(250Mから175B)でのTHORの性能を比較しました。
結果: モデルのサイズが大きくなるにつれて、THORの効果は指数関数的に増加しました。特に大規模なモデルでは、THORの性能向上がより顕著でした。
考察: 大規模な言語モデルがTHORフレームワークを利用することで、その推論能力を最大限に引き出すことができることを示しています。また、大規模モデルでは、共通感覚と多段階の推論能力が大きく発展し、強化されることが明らかになりました。
まとめ
暗黙的感情検出のための多段階推論ソリューションに貢献しています。
感情分析にCoTのアイデアを成功裏に拡張した最初の試みであり、他のNLP問題への適用範囲が広い。
所感
手法自体は単純だがLLMとの組み合わせにより十分に強力なのが良い。他のタスクにおいても応用が効きそう
THOR サンプル
https://gyazo.com/98d717e039270e1cb9d239f889811bf4