N-gram
N文字の部分列に分割する
検索漏れを起こさない
cons
転置リストの量が膨大になる
意図しないクエリでヒットしてしまう
e.g. 「東京都」を「東京」、「京都」と誤インデックスしてしまうので、
「京都」で「東京都」がヒットする
例
「こんにちは、世界」をbi-gramで分割する
こん
んに
にち
ちは
は、
、世
世界
特に
N=1のときuni-gram
N=2のときbi-gram
N=3のときtri-gram