janome
install, setupが簡単(pipでそのまま)で、前処理機能もあるので、使い所があるかもしれない。
html(web)上の情報の処理、特定タグのテキスト抽出、表記ゆれの対処(unicode正規化)など
analyzer
analyzerの練習?をhandyにしたいときは、janomeでやってみるのが使いやすそう。
notebook:
analyzer使った関数を定義して、base_formを返すようにして
from sklearn.feature_extraction.text import TfidfVectorizer を使って、TF-IDFを作る charfilterや tokenfilterはおおまかには試した。
代替
pythonでやるには、このjanomeがやりやすそうだけど、
sudachiをpythonで使うこともできそうなので、tokenizerだけここを使う? sudachiのエコシステムの発展を待つ?
nltkツールとかの概観をつかむ必要があるのかも。 neologdの利用
丁寧に手順が書かれていて、buildできたけど、手数がかかるのはかかるので、、
buildされたものが不定期で用意されているので、
$ pip install Janome-0.3.4.dev1.neologd20170717.tar.gz --no-compile
$ python -c "from janome.tokenizer import Tokenizer; Tokenizer(mmap=True)"
こちらを使うのがよいかも。
mmapのことがよくわかってないけど、初回起動時?(command line)でもそれなりの時間がかかる? 二回目以降はそれなりの時間になる。