単一トークン適応による大規模言語モデルに基づく文埋め込み
public.icon
単一トークン適応による大規模言語モデルに基づく文埋め込み **タイトル(英語 & 日本語):**
Single-Token Adaptation for Sentence Embedding Based on Large Language Models
単一トークン適応による大規模言語モデルに基づく文埋め込み
**ジャーナル名 & 出版年:**
言語処理学会 第30回年次大会 発表論文集(2024年3月)
**著者:**
趙 開顔、呉 奇宇、苗 中濤、呉 梓隆、鶴岡 慶雅
**所属(英語):**
東京大学大学院 情報理工学系研究科
**アブストラクト:**
文埋め込み学習では、対照学習に基づいたエンコーダのみのモデルが広く使われているが、大規模言語モデル(LLM)を文埋め込みの生成に利用する方法はまだ確立していない。本研究では、LLMの学習済みの知識や生成能力を維持しつつ、文全体の情報を捉えることができる唯一の更新可能な特殊トークン<2>を導入する新しいアプローチを提案する。文類似度タスクの実験結果から、単一の特殊トークン<2>を更新することで、本手法は他の微調整されたモデルと近い結果を達成できることが示された。
**背景:**
文埋め込みは、テキストや文を実数値ベクトルに変換する自然言語処理の基本的なタスクである。Sentence-BERTやSimCSEのような対照学習に基づくエンコーダのみのモデルが一般的であるが、大規模言語モデル(LLM)を用いた文埋め込みの生成方法はまだ確立されていない。
**方法:**
本研究では、新しい効率的なアプローチとして、特殊トークン<2>を用いる手法を提案する。この手法では、入力文の後に特殊トークン<2>を追加し、LLMにテキストを埋め込みに変換するように学習させる。トレーニング中、<2>トークンのパラメータのみが更新され、他のパラメータは凍結される。
**結果:**
文類似度タスクSTSの実験結果から、<2>トークンのみを更新することで、文全体の意味を捉えることができることが示された。このアプローチは、計算資源のコストを削減しつつ、他の微調整されたモデルと比較して同等の結果を達成できる。
**議論:**
<2>トークンを用いた手法は、LLMの生成能力に影響を与えずに文脈情報を捉えることができる非常に効率的なアプローチである。実験結果は、<2>が効果的に文埋め込みを生成できることを示しているが、この手法がSOTAモデルを超えることはない。
**先行研究との比較の新規性:**
本研究の新規性は、LLMを用いた文埋め込み生成のための単一トークン更新手法を提案した点にある。この手法は、他の既存手法に比べて計算コストを大幅に削減しつつ、文全体の情報を捉えることができる。
**限界点:**
<2>トークンを用いた手法では、トークンの数を増やすことで性能が向上する可能性が示されたが、訓練可能なトークンの数がモデルの性能に与える影響についてはさらなる調査が必要である。
**潜在的な応用分野:**
この手法は、自然言語処理における様々な下流タスク、特に文類似度の測定や文の検索などに有用である。また、計算資源が限られている環境での効率的な文埋め込み生成に貢献する可能性がある。