2018-02-24-hem6
わたしもこれがやりたい gaaamii.icon /icons/いいぞ!.icon
準備
なんかインストールする。
pip install gensim
あー、あれね、なんかきいたことある
pip install janome
形態素解析してくれるらしい。mecabみたいなやつね。 完全に理解した。https://gyazo.com/773058b67580f677a996c858ea63a1f6
過程
名詞と動詞を抽出して学習器に食わせればええんか?
こうして
code:単語抽出.py
from janome.tokenizer import Tokenizer
def tokenize(text):
t = Tokenizer()
result = []
for token in t.tokenize(text):
result.append(token.base_form)
return result
words = texts.apply(tokenize)
こうか?
code:冒頭のブログで使ってるコードをコピペした.py
from gensim.models import word2vec
model = word2vec.Word2Vec(words,
sg=1, #0: CBOW, 1: skip-gram size=300, # ベクトルの次元数
window=5, # 入力単語からの最大距離
min_count=5, # 単語の出現回数でフィルタリング
)
model.save("./word2vec.model")
結果
思ってたんとちがう😫
https://gyazo.com/8d5741c8699bb984f2af1e5d432f7d9a
データ量増やしたらそれっぽくなった
https://gyazo.com/d26dbbbf2c62cafc2ddc3bad93025cb1
図書館しまっちゃうので今日はここまで!
雑談など
飲みに行くぞ!
gaaamii.icon 冒頭のブログのやつで単語がいい感じに表示されてるのは、これはTensorflowの機能か何かなんですかね?なんかすごいリッチな見え方
https://cdn-ak.f.st-hatena.com/images/fotolife/k/karaage/20180211/20180211123046.png
hem6.iconイエスイエス!なんだかいい感じに表示してくれます
https://gyazo.com/af81baddbece7a67f1ca5b04e258a7d4
直近5000ツイートくらい読み込ませた結果ですが、仕事は死に近い