vector databases
近いベクトルを持ってきたいが、全数マッチは時間がかかるので、その探索方式やデータの保存(index?)方式に工夫がある?
アルゴリズム
現在多くのライブラリで実装されている代表的なアルゴリズムはHNSW(Hierachical Navigable Small World)と言って良いでしょう
k-NNだけだと?探索に時間がかかるので、Hierachical に small world を降りていくようなイメージ? 製品, ライブラリ
インメモリで動く。 永続化も可能。 db = Chroma(persist_directory="XXX")
qdrant, pinecorn, pgVector, FAISS Chroma
DBに入れた embetting 方式と、検索クエリは同じ embeddingにしないといけない。 DBのexport, import ができれば、Databaseの乗り換えはできそう?