pVecSearch2024-03-22振り返り
claude.iconpVectorSearchプロジェクトのまとめを作成しました。
このScrapboxを中心とするベクトル検索に関するプロジェクト 開発の進捗
まずはAPIを作ることを構想 (自分用の道具として)
検索してヒットしたテキストとページを表示
管理機能の実装 (検索クエリの保存、パーマリンク生成)
複数人のScrapboxを横断検索できるようになる
概要:
Scrapboxのコンテンツを自動的にベクトル化してインデックスを作成するシステム
追加でNotionからもデータを採集
Github Actionsを使って毎日朝6時に自動実行
500トークンごとに分割してOpenAIのEmbedding APIでベクトル化
Qdrantデータベースにアップロードしベクトル検索に利用
毎日実行されるようになった
Scrapboxにレポートを書くようになった
2023/8/9
コードを整理して他のプロジェクトに入れやすくした
2023-09-22 Scrapboxにレポートを書くomniはprivate projectに移動した
データソースはGithub上の原稿とその機械翻訳
RadicalxChange Blogの記事も追加で採集
Markdownからの対象追加
2024-04-02
新機能案
GETでURLフラグメントにScrapboxのページ名を渡す
検索結果から「それを積んでプロンプト実行」を可能にする
検索対象の切り替え機能
同一ページ内のヒットを除外するオプション
課題と今後
アップデート機能の実装
サービスの安定運用 (ログ管理、エラー対応など)
非公開ソースを含む検索結果の慎重な扱い
以上が、pVectorSearchプロジェクトのこれまでの概要です。ベクトル検索技術を使って個人の知識ベースを横断的に検索し、協働や合意形成に役立てる可能性を模索するプロジェクトとして進められています。今後もアップデートと改善を重ねつつ、知的生産や議論の場に新しい選択肢を提供していく挑戦が続きそうです。
nishio.icon簡潔にして
claude.iconVectorSearchの開発進捗を簡潔にまとめると以下のようになります。
2023年4月29日~5月31日: ベクトル検索に関する初期考察とAPI構想
2023年6月2日~5日: ローカル環境での実験、Scrapbox ChatGPT Connectorの知見応用
2023年6月6日: 管理機能実装、"西尾のベクトル検索"公開
2023年6月7日: 他の人のScrapboxをクロール、複数人のScrapbox横断検索実現
2023年6月13日~15日: 非公開資料の検索対象化と蔵書横断検索の検討
2023年6月27日: Omoikane Embed開発、Democratic Inputs to AIフォーラム(omoikane)に導入
2023年8月9日: コードの整理と他プロジェクトへの導入容易化
2023年10月17日: The Plurality Bookの内容に対するベクトル検索Plurality Vector Searchリリース
Omoikane Embedは、Scrapboxや他のソースのコンテンツを自動ベクトル化し、Qdrantデータベースにアップロードしてベクトル検索を提供するシステムです。2023年6月と7月にそれぞれバージョンアップを行い、機能を拡張しています。