sudachi
形態素解析 の新顔?
WorksApplications/Sudachi: Sudachi is Japanese morphological analyzer
WorksApplications/SudachiPy: Python version of Sudachi, a Japanese morphological analyzer.
言語処理学会2018の「形態素解析の今とこれから」で発表してきました! - Taste of Tech Topics
セールスポイント
表記ゆれ対応
単語分割は3つ方法 A が UniDic,
The modes of splitting
Sudachi provides three modes of splitting. In A mode, texts are divided into the shortest units equivalent to the UniDic short unit. In C mode, it extracts named entities. In B mode, into the middle units.
みたい。The modes of splitting
optionで指定時は、-m {A|B|C} specifies the mode of splitting
ElasticSearch Sudachi で指定する際は個々に例がある
defaultはsearch,A,Cの両方だす。mode:normalでAのみ
janomeの前処理とも比較すべきかな。
MeCab とは、、 めかぶ?すだち? - 👨🏻‍🌾
#nlp
Colaboratoryで使えそうなら、やってみたい。
毎回辞書?をdownloadとかになるけど、google storageとかにいれておいてもよさそうだし。
buildしたもの実行ファイルと辞書をimportして、javaを入れればよい?
python - How can I use Java in Google Colab - Stack Overflow
local, docker ともに動いたので、放置。
localで使うには、この記事が参考になった。 
コマンドラインから Sudachi で形態素解析してみる / 桃缶食べたい。
おかげで設定できて、自分のコマンドに登録した。command
ElasticSearch Sudachiを入れて kibana上で確認するのが簡単?
versionをいろいろ合わせる必要がありそう。
毎回設定するわけでないので、一度buildして elasticSearchのplugin installして、DockerfileにしてしまえばOKかも.