2018-02-25-hem6
昨日のやつ
元データを8万ツイートすべてにしたところ、類義語として順当なものが出るようになってきた。
(右側のリストが近い順)
https://gyazo.com/8cfb02f4a5e957117e8249a140aa2f99
https://gyazo.com/a523dfea986a3fef364264e9e51b066a
恋
「恋」は「役に立つ」「ダンス」と近い。なんのドラマを見ていたかがわかる。
https://gyazo.com/257e59bdfcb9becc631242d4583c937f
並列処理
ツイート全量を処理するにあたって、Pythonでの並列処理を覚えた。 janomeで形態素解析している部分に時間がかかっていたので、入力ファイルを分割してその部分だけマルチプロセスで処理した。
code:並列処理するとこ.py
import concurrent.futures
with concurrent.futures.ProcessPoolExecutor() as executor:
results = executor.map(task, files)
task関数でファイル読み込み〜janomeでの分かち書きまでやってる。
リストのmapと同じ感じで並列処理できるのでとても直感的。
楽しい
以上、word2vecで自分の文章から単語をベクトルにして可視化でした。眺めてるだけで楽しい。 ほんとうはベクトル化した単語をディープラーニングとかのインプットに使ったりするのかな?
ひとしきり楽しんだので今回はここまでにします。
雑談など
これ書きながらカフェでビールを飲んでるんだけど、カフェのWi-Fiが繋がらなくて結局テザリングしてる。