【日本語モデル付き】2020年に自然言語処理をする人にお勧めしたい文ベクトルモデル

SentenceBERTの紹介

（積ん読）Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

https://qiita.com/sonoisa/items/1df94d0a98cd4f209051

この日本語モデルを使うことで、誰でも簡単に高品質な文ベクトルを作れるようになります。

https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2 （2022/02時点の最新）

BERTの原論文にも書かれているとおり、これらを文ベクトルとして使うことは適切ではありません。

これら＝素のBERTのCLSベクトルやBERTの埋め込みの平均

SentenceBERT（『PyTorch自然言語処理プログラミング』）も同じ主張

原論文 5.3 Feature-based Approach with BERT を見ると「This demonstrates that BERT is effective for both fine-tuning and feature-based approaches.」なので、Qiita記事の著者の記憶違いかも（Qiita側に参照なし）

一方、Universal Sentence Encoderのような既存の深層ニューラルネットワークを用いた文ベクトルモデルの学習は計算コストが高すぎて、自分で学習させるのは辛かったりも。

手を動かす：SentenceBERTお試し