転置インデックス

その単語がどのページで使われてるかを表す表

本の索引みたいなやつ

用語

単語レベルの転置リスト

その単語がどの文書に存在するかだけでなく、その中の場所の情報も含む転置リスト

「こんにちは」が何ページにあるかだけでなく、何ページの何文字目にあるかなどもわかる

利用用途

そのポジションの場所によって検索結果のスコアの優劣を付けたりして使ったり。

複数単語の検索のときに、フレーズを検索するときに使える

ポジションが隣り合っているかどうかを知るために使える

単に文書の中に「hello」と「world」があればよいでのはなく、「hello world」というフレーズを探したい

日本語の場合

各単語が空白で区切られていないので、以下のような手段を用いて単語ごとに区切る必要がある

転置リストの実装

各ポスティングリストを二次記憶装置の連続した領域に格納する

なんで？

『検索エンジン自作入門』.icon p.33