情報検索
検索要求→検索質問(問い合わせ)→情報検索エンジン, DB→結果
抽象化されたデータベースシステム
索引語の集合
論理式
自然言語
画像
利用者コンテキスト
位置
履歴
行動パターン
画像、映像、その他メディアの可能性もある
適合: 情報要求に合致する文書
不適合: 情報要求に合致しない文書
ランキング: 適合度合い順に文書を整列したもの
分類
与えたキーワードとの完全一致・部分一致による検索
意味内容に踏み込まない
意味的に類似した文書を検索
これを作るのも、評価するのも難しい
検索対象データそのもの
テキスト、画像、ニュースなど
一次情報を細く説明する情報
書誌情報、キーワード、コメント、タグ
前処理の必要性
行わない場合
検索質問が与えられた時、初めて検索する
パターン照合アルゴリズムを使用する
行う場合
内容検索の場合、文書から特徴抽出を行っておく
情報検索モデル
索引語の論理式で検索質問を表現する
検索を効率化するためのファイル編成
索引語とその索引語が出現する文書をポインタで結びつけたもの
ポインタの配列を持つ辞書ね momeemt.icon
辞書ファイルと位置ファイルに分けられる
巨大なので二次記憶に置く
利点
索引語間の関連を論理式で明確に定義できる
欠点
一般のユーザには質問を記述するのが難しい
検索結果を類似度順で提示できない
索引語の重要度を区別しない
検索質問と文書の双方をベクトルで表現する
ベクトルの向きが近ければ類似
要素が集合に帰属する度合いを0〜1の値で表した集合
帰属度合いをメンバシップ関数$ \mu_F(\cdot)で与える
演算が定義されている
和集合→ max
積集合→ min
補集合→ 1から引く
問題点
メンバシップ関数の決定が難しい
重みの根拠
索引語抽出手法と、索引重み付け手法が重要
例