転置Index, Analyzer, Mapping | Elasticsearch
その3ではElasticsearchの仕組みについての説明が記載されている。
転置Index
Indexは RDBのインデックスと同じ役割で、本の索引の役割を担う
単語に対して、それが含まれるドキュメントIDを紐付けて保存していく
Analyzer
簡潔に述べると、単語を検索しやすいよう、置き換え・最適化してくれる機能のこと
アナライザは3つのコンポーネントによって実行される
Character Filter
単語・文章を整形
単語そのものを置き換える、文章の不要なものを除去 (HTMLタグなど)
Tokenizer
整形された単語群を分かち書きする
日本語で分かち書きする場合は、kuromojiというプラグインを利用する
Token Filter
品詞をなどを除外し、最終的に検索に必要な単語を残す
Mapping
型を指定する
検索されることを念頭に、二つの型を定義することも可能 (完全一致 または 部分一致 どちらも対応、のように)