検索システムと推薦システム
キーワード検索
ElasticSearch, Apache Solr, Whoosh
データベース
PostgreSQL, MySQL
正規表現
構文解析
Spacy, NLTK
IRモデル
tf-idf, okapi bm25
ベクトル検索
bert, transformer, chatgpt(?)
検索エンジンはなぜ見つけるのか?
1章 検索エンジンの目指すもの
2章 集める
3章 整理する
4章 検索する
5章
機械学習による検索ランキング改善ガイド
ウェブサイトなどで検索を行う際には、多数のドキュメントから検索結果の候補を見つけ出す「マッチング」、その結果を望ましい順序に並べ替える「ランキング」という2つの操作が行なわれています。本書はこのうち「ランキング」の改善に機械学習のアプローチを導入することによって、検索結果の質を高めるプロセスを解説する書籍です。
第Ⅰ部では、機械学習を用いたランキングモデルの導入だけでなく、従来手法での改善、またモデルそのものの改善や各種のテストなど、機械学習システムを導入、運用するプロジェクトの全体を幅広く紹介します。第Ⅱ部ではサンプルのシステムを実際に動作させて、その挙動を体験するハンズオンを行います。巻末の付録では「ベクトル検索と機械学習」について解説しています。
「極めてシンプルでありながらBERT等の既存の深層学習手法を上回る」として話題の「gzipによるセマンティック検索」の実装と直感的な説明をGitHub Gistに掲載しました
グラフを用いた近似最近傍探索の理論と応用