e5-mistral-7bを蒸留して中程度の大きさの埋め込みモデルを学習する
7BのLLMを埋め込み用にファインチューニングしたモデル
日本語の評価でもかなり優秀
今回は同じ埋め込み次元を持つ1.9bのモデルへの蒸留を試しました。
STS関連のタスクは成功したものの、検索タスク(MIRACL)の評価が元モデルほど良くならず、モデルサイズに見合った精度とは言えない結果です。
Student Model
mergekit
学習データ
unicamp-dl/mmarcoから(TODO)
今回の学習はLoRAを使わず、フルパラメタチューニングを実施しました。
2日程度
last_token_pool関数はe5-mistralのモデルカードに書いてある実装そのままです。
embeddingを100倍してからlossを計算することで、lossの値が小さくなりすぎることを防いでいます。