janome - 未来の自分を助けるメモ

janome

install, setupが簡単(pipでそのまま)で、前処理機能もあるので、使い所があるかもしれない。

html(web)上の情報の処理、特定タグのテキスト抽出、表記ゆれの対処(unicode正規化)など

analyzer

ElasticSearchのanalyzerと同じように?使えう

analyzerの練習？をhandyにしたいときは、janomeでやってみるのが使いやすそう。

notebook:

analyzer使った関数を定義して、base_formを返すようにして

from sklearn.feature_extraction.text import TfidfVectorizer を使って、TF-IDFを作る

charfilterや tokenfilterはおおまかには試した。

代替

pythonでやるには、このjanomeがやりやすそうだけど、

sudachiをpythonで使うこともできそうなので、tokenizerだけここを使う？

sudachiのエコシステムの発展を待つ？

nltkツールとかの概観をつかむ必要があるのかも。

neologdの利用

丁寧に手順が書かれていて、buildできたけど、手数がかかるのはかかるので、、

buildされたものが不定期で用意されているので、

$ pip install Janome-0.3.4.dev1.neologd20170717.tar.gz --no-compile

$ python -c "from janome.tokenizer import Tokenizer; Tokenizer(mmap=True)"

こちらを使うのがよいかも。

mmapのことがよくわかってないけど、初回起動時?(command line)でもそれなりの時間がかかる？二回目以降はそれなりの時間になる。