Word2Vec Doc2Vec 覚書
word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり
絵で理解するWord2vecの仕組み
パラメータチューニング
windowは大きすぎると対比の文章の言語まで拾って学習してしまうので20以下が良さそう
min_countはデフォルトくらいがよい
1では小さすぎてノイズが増える
sizeは200くらいがちょうどよい
小さいと表現しきれず、大きいと疎な空間になってしまい精度が落ちていく
How to check if a key exists in a word2vec trained model or not
原始的だがこれが良い
code:python
if word in w2v_model.wv.vocab:
# Do something
単語の羅列からDocラベルを類推する方法
Doc2vec(gensim) - How to calculate the most similar sentence and get its label?
code:python
model = Load_model('model.doc2vec')
infer_vector = model.infer_vector(s)
similar_documents = model.docvecs.most_similar(infer_vector, topn = 1) 絵で理解するWord2vecの仕組み
Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
わかったこと
1行ニュースで問題ない
LabeledSentenceの引数
トークンのリスト
tags=には正解のラベルのList
サンプル
code:python
for labeled_sentence():
tokens = tokenize(..)
https://gyazo.com/63f8c13b3fd33f7b49e182aa288e6f85