yacy (自作検索エンジン)
特徴
オープンソースの自作検索エンジン。任意のドメインやURLを起点として、指定した深さの分インターネット上のページをクロールしてくれる。
クロールしたサイトは字句解析されインデックスとなり、キーワードと共にApache Solar製のデータベースへ保管される。
P2Pでインデックス交換できる仕組みがある。これが特徴。
yacy通信をsocksプロキシに通したり、ノードが立っているマシンをVPNに通すことで、TorやI2P、yggdrasilなどのいわゆるインターネット外のネットーワークに対してもクロールが行える。
P2P機能について
もともとyacyは中国のグレートファイアウォールに対抗する検索エンジンとして作られた。
yacyノード同士で分散ハッシュテーブルを使い、キーワード(のハッシュ)に関するインデックスを持っているノードを分散管理する。
検索を実行すると、自分のノードが持っているインデックス(自分でクロールしたページ)以外に、ネットワークに対して問い合わせた結果も帰ってくる。
インターネット上のサイトは無数にあるが、誰かがきっとインデックスしてるはず。という思想。
自分のインデックスを他人に提供しないで他人のインデックスを使うこともできるし、P2P機能自体を無効にして単体の検索エンジンとして使うこともできる。
#検索エンジン #P2P