PlumeでLindera版を起動するとメモリー消費が激しい
メモリーフットプリント
psで調べる
no-lindera:
code:shell
% ./plume-no-lindera
code:ps
VSZ RSS
2917344 58132
lindera:
code:shell
% SEARCH_LANG=ja ./plume-lindera
code:ps
VSZ RSS
3121920 259104
code:shell
% ./plume-lindera
code:ps
VSZ RSS
2985528 52196
トークナイザーをLinderaにしなければまあ、features=search-lindera付きでビルドしておくまではいいのか。 辞書を読み込むんだから宿命的にメモリー使用量が増えるのは避けられない……と思ったけど、あれ、辞書を読むんだっけ? インデックスを読み込んでる?
インデックスはn-gramとかの方が大きそうだよな。空白分割でもそんな変わんなさそうだし。
あれ、何にメモリー使ってるんだ?
ああ、日本語文書だから空白分割時のインデックスが小さいということかな
英語文書たくさん入れて試してみよう
増えない…
形態素解析の際にやっぱ辞書か、辞書から作った何かが必要だよね。それだろう
まず最初に大規模語彙データから,辞書を構築する必要があります.文の解析時にこの構築した辞書を参照します.
ですよねー・・・
インデックスの生成時間がまず全然違うしな
起動は速いけど。