転置インデックス
Inverted index
その単語がどのページで使われてるかを表す表
本の索引みたいなやつ
用語
ドキュメント (文書)
ドキュメントID
ポスティング
ポスティングリスト
転置リスト
Word-level inverted list
単語レベルの転置リスト
その単語がどの文書に存在するかだけでなく、その中の場所の情報も含む転置リスト
「こんにちは」が何ページにあるかだけでなく、何ページの何文字目にあるかなどもわかる
利用用途
そのポジションの場所によって検索結果のスコアの優劣を付けたりして使ったり。
複数単語の検索のときに、フレーズを検索するときに使える
ポジションが隣り合っているかどうかを知るために使える
単に文書の中に「hello」と「world」があればよいでのはなく、「hello world」というフレーズを探したい
日本語の場合
各単語が空白で区切られていないので、以下のような手段を用いて単語ごとに区切る必要がある
形態素解析
N-gram
転置インデックスを作る流れ
転置リストの実装
各ポスティングリストを二次記憶装置の連続した領域に格納する
なんで?
『検索エンジン自作入門』.icon p.33
/mrsekut-book-4908686130/037 (2.1 転置インデックスの概要)
/mrsekut-book-4873115892/222
/mrsekut-book-4295009776/016
https://tech.retrieva.jp/entry/2021/07/19/100259