N-gram
from
転置インデックス
N文字の部分列に分割する
検索漏れを起こさないが、転置リストの量が膨大になる
「東京都」を「東京」、「京都」と誤インデックスしてしまう
特に
N=1のときuni-gram
N=2のときbi-gram
N=3のときtri-gram
例
「こんにちは、世界」をbi-gramで分割する
こん, んに, にち, ちは, は、, 、世, 世界