【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル
SentenceBERTの紹介
(積ん読)Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
https://qiita.com/sonoisa/items/1df94d0a98cd4f209051
この日本語モデルを使うことで、誰でも簡単に高品質な文ベクトルを作れるようになります。
https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2 (2022/02時点の最新)
BERTの原論文にも書かれているとおり、これらを文ベクトルとして使うことは適切ではありません。
これら=素のBERTのCLSベクトルやBERTの埋め込みの平均
SentenceBERT(『PyTorch自然言語処理プログラミング』)も同じ主張
原論文 5.3 Feature-based Approach with BERT を見ると「This demonstrates that BERT is effective for both fine-tuning and feature-based approaches.」なので、Qiita記事の著者の記憶違いかも(Qiita側に参照なし)
一方、Universal Sentence Encoderのような既存の深層ニューラルネットワークを用いた文ベクトルモデルの学習は計算コストが高すぎて、自分で学習させるのは辛かったりも。
手を動かす:SentenceBERTお試し