janome
#形態素解析 #nlp
install, setupが簡単(pipでそのまま)で、前処理機能もあるので、使い所があるかもしれない。
html(web)上の情報の処理、特定タグのテキスト抽出、表記ゆれの対処(unicode正規化)など
github: mocobeta/janome: Japanese morphological analysis engine written in pure Python
analyzer
ElasticSearchのanalyzerと同じように?使えう
analyzerの練習?をhandyにしたいときは、janomeでやってみるのが使いやすそう。
Python janomeのanalyzerが便利 - け日記
Python, Janomeで日本語の形態素解析、分かち書き(単語分割) | note.nkmk.me
notebook:
https://drive.google.com/file/d/1SNYH9YBzPNT_Li9fGiufCMga9KJX9LDo/view?usp=sharing
analyzer使った関数を定義して、base_formを返すようにして
from sklearn.feature_extraction.text import TfidfVectorizer を使って、TF-IDFを作る
charfilterや tokenfilterはおおまかには試した。
代替
pythonでやるには、このjanomeがやりやすそうだけど、
sudachiをpythonで使うこともできそうなので、tokenizerだけここを使う?
sudachiのエコシステムの発展を待つ?
WorksApplications/SudachiPy: Python version of Sudachi, a Japanese morphological analyzer.
nltkツールとかの概観をつかむ必要があるのかも。
neologdの利用
(very experimental) NEologd 辞書を内包した janome をビルドする方法 · mocobeta/janome Wiki
丁寧に手順が書かれていて、buildできたけど、手数がかかるのはかかるので、、
buildされたものが不定期で用意されているので、
https://drive.google.com/drive/folders/0BynvpNc_r0kSd2NOLU01TG5MWnc
$ pip install Janome-0.3.4.dev1.neologd20170717.tar.gz --no-compile
$ python -c "from janome.tokenizer import Tokenizer; Tokenizer(mmap=True)"
こちらを使うのがよいかも。
mmapのことがよくわかってないけど、初回起動時?(command line)でもそれなりの時間がかかる? 二回目以降はそれなりの時間になる。
#study #python