全文検索の盲点
増井俊之.icon 2018/4/6 13:52
ということに気付いてない人も多いのではなかろーか
問題点
みつかった情報の周辺情報がわからない
微妙に用語が違うとみつからない
この両方ともリンクで解決できるわけだから、リンクが沢山ある情報を全文検索するのが正しい と思うのだけれど、これを説得力ある表現できるだろうか?
逆パターンだけど、リンク構造だけで見つかるの?って聞かれた時に、全文検索して見つけた近そうなページから最悪でも2,3クリックで見つかるよと言うと納得されますねshokai.icon
/icons/なるほど.icon 増井俊之.icon
そういう説明は良い気がする
shokai.icon
検索結果は謎のスコアでソートされて出てくるが、順番に納得いかない場合も多い
javaだけ探したいのにjavascriptばかり出てくる
javascriptを除外すると、両方に言及してるページも除外されてしまう
pagerankはリンク構造からスコアを算出する物だから、リンク構造が無いドキュメント群をただ全文検索するだけでは使い物にならない 一番の問題は、ソートだと思うrakusai.icon
組織内の情報がtf-idfや日付順で並べられても欲しい情報に一ページ目ではたどり着けないことが多い。 すると更新できないので重複した似たようなページがますますたくさん作られてさらにゴミの山になる
「ページビュー」順にするのは一つありそうだが、一ページ目の上にくるものにpageviewが集まりそうなのでたぶん機能しない
あとは「いいね」等によるランキングだが、これもいまいちそう
↑のshokaiのいうようにGoogle以前に戻る