SentenceBERT(『PyTorch自然言語処理プログラミング』)
#PyTorch自然言語処理プログラミング 5.12
詳しくは 【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル を案内
fine-tuningを行わない素のBERTからの出力により求めた文の埋め込み表現は、適切なものになっていないことが知られているとのこと
特殊token CLS の埋め込み表現
文中の各単語の埋め込み表現の平均ベクトル
【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデルでBERTの論文(2018)を見たが、言い過ぎな気がする(2018の論文では有効と言っている)
検証
日本語のSentenceBERTで「各単語に対する埋め込み表現の平均ベクトルを取」って求めたコサイン類似度に大小関係があり「そこそこよい感じ」
文→tokens→SentenceBERTで埋め込み表現ベクトルに変換→平均を取る
東北大版BERTを用いてtokenの平均ベクトルを取った場合は、コサイン類似度に大きな差がない