PlumeでLindera版を起動するとメモリー消費が激しい

メモリーフットプリント

psで調べる

no-lindera:

code:shell

% ./plume-no-lindera

code:ps

VSZ RSS

2917344 58132

lindera:

code:shell

% SEARCH_LANG=ja ./plume-lindera

code:ps

VSZ RSS

3121920 259104

code:shell

% ./plume-lindera

code:ps

VSZ RSS

2985528 52196

トークナイザーをLinderaにしなければまあ、features=search-lindera付きでビルドしておくまではいいのか。

辞書を読み込むんだから宿命的にメモリー使用量が増えるのは避けられない……と思ったけど、あれ、辞書を読むんだっけ？　インデックスを読み込んでる？

インデックスはn-gramとかの方が大きそうだよな。空白分割でもそんな変わんなさそうだし。

あれ、何にメモリー使ってるんだ？

ああ、日本語文書だから空白分割時のインデックスが小さいということかな

英語文書たくさん入れて試してみよう

増えない…

形態素解析の際にやっぱ辞書か、辞書から作った何かが必要だよね。それだろう

まず最初に大規模語彙データから，辞書を構築する必要があります．文の解析時にこの構築した辞書を参照します．

ですよねー・・・

インデックスの生成時間がまず全然違うしな

起動は速いけど。