N-gram
N文字の部分列に分割する
検索漏れを起こさない
cons
転置リスト
の量が膨大になる
意図しないクエリでヒットしてしまう
e.g. 「東京都」を「東京」、「京都」と誤インデックスしてしまうので、
「京都」で「東京都」がヒットする
例
「こんにちは、世界」をbi-gramで分割する
こん
んに
にち
ちは
は、
、世
世界
特に
N=1のとき
uni-gram
N=2のとき
bi-gram
N=3のとき
tri-gram