sudachi
セールスポイント
表記ゆれ対応
単語分割は3つ方法 A が UniDic,
The modes of splitting
Sudachi provides three modes of splitting. In A mode, texts are divided into the shortest units equivalent to the UniDic short unit. In C mode, it extracts named entities. In B mode, into the middle units. optionで指定時は、-m {A|B|C} specifies the mode of splitting
defaultはsearch,A,Cの両方だす。mode:normalでAのみ
毎回辞書?をdownloadとかになるけど、google storageとかにいれておいてもよさそうだし。
buildしたもの実行ファイルと辞書をimportして、javaを入れればよい?
local, docker ともに動いたので、放置。
localで使うには、この記事が参考になった。
versionをいろいろ合わせる必要がありそう。