(触りたい)学習済み日本語word2vec
#word2vec #gensim
word2vecの学習済み日本語モデルを公開します
Wikipedia日本語版をコーパスとして学習
(積ん読)訓練スクリプト一式 https://github.com/shiroyagicorp/japanese-word2vec-model-builder
ハイパーパラメタを変えた訓練
pip install 'gensim<4'
code:python
>> from gensim.models.word2vec import Word2Vec
>> model = Word2Vec.load("latest-ja-word2vec-gensim-model/word2vec.gensim.model")
>> model.vector_size
50
このモデルは日本語の単語を50次元のベクトルに変換できる
Parameters used for training this model are size=50, window=8, min_count=20 (GitHub)
gensim.models.word2vec.Word2Vec
https://radimrehurek.com/gensim_3.8.3/models/word2vec.html
Word2Vec.wv.most_similar
過去試した https://nikkie-ftnext.hatenablog.com/entry/2019/05/25/103411
model.wv.most_similar(positive=["日本", "ソウル"], negative=["東京"]) で「韓国」がまず返った
その他の wv 属性を参照する方法:gensim models.keyedvectors