SentenceBERT(『PyTorch自然言語処理プログラミング』)
fine-tuningを行わない素のBERTからの出力により求めた文の埋め込み表現は、適切なものになっていないことが知られているとのこと
特殊token CLS の埋め込み表現
文中の各単語の埋め込み表現の平均ベクトル
検証
日本語のSentenceBERTで「各単語に対する埋め込み表現の平均ベクトルを取」って求めたコサイン類似度に大小関係があり「そこそこよい感じ」
文→tokens→SentenceBERTで埋め込み表現ベクトルに変換→平均を取る
東北大版BERTを用いてtokenの平均ベクトルを取った場合は、コサイン類似度に大きな差がない