ベクトル検索の改善

nishio.icon

2024/3/21

nishio/plurality-vecsearch: Vector Search of Plurality

これはview

plurality-japanese/autotrans/upload_embedding.py at 1f5fbfb52e0692b3ab5bd5020a1f6f38761254b9 · nishio/plurality-japanese

これがデータのアップロード

あれ？そもそも定期実行してなかったか？

make_embedding.pyが埋め込み作成コードだが、Github Actionsから実行されてない

試しに使って手元で実行して、より良い方法を考えようと思ってペンディングになってたか？

Scrapboxの中身を入れてない

現時点のサービス

英語で解説を書いたりしてある

英語で検索すれば古い原稿とRxCブログに対してヒットする

ちゃんと機能してるから捨てなくて良い

日本語で「熟議」と検索すると、日本語だけでなく中国語もヒットする

この振る舞いはユーザにとって有益ではなかった

結局のところ、言語を混ぜて入力することはユーザ体験を損ねる、分けた方がいい

現時点のサービスは適当なタイミングで「英語版の原稿」と「RxCブログ」だけにする

その他の英語の文章で有益なものは入れていってもいい

SayIt とか https://sayit.pdis.nat.gov.tw/speaker/audrey-tang-2

新しいサービス

日本語だけを入れたサービスを別途作る

Scrapboxを入れる

書籍の中だけ検索したいって人も将来的には出てくるだろうけど、それは日本語書籍版の原稿が固まってからフラグをつけて入れたらいい

検索対象の切り替えとかもなくていい、入れたキーワードで30件検索した中に書籍の内容のものがあればハイライトするとか一番上に持ってくるとか、そういう感じ

チャンクの改善

チャンクは今までの500トークンのものだけでなく100トークンのものも入れる

1ページから1チャンクしかヒットしないようにする

データの追加について

1: まずはこのScrapbox

2: その他のScrapboxを対象にする

/tkgshnとか/halskとかにリンクしてる

人を決めてその人の全部のコンテンツを取ってくるのではなくリンクされたページだけ対象にする

Scrapbox間リンクを見て、リンク先をAPIで取得する

3: 外部ページ？

例えばWikipediaにリンクしてたりする

リンク先の情報を取ってきて検索対象に入れると便利？

しかしリンク先をなんでも取ってくるってのは微妙

4: 書籍？

「関連する内容が本Aの何ページにあるよ」はめっちゃ便利

---過去のメモ

前回のメモ: Vector Searchを実装する

2024/3/17

今は世界の人をユーザとして想定して作ってたけども、ニーズを捉えられてなかったと思う

今後日本語版を整理していくにあたって「こんな感じのことを前に書いたような？」が発生するので、このScrapbox上の日本語をターゲットにして、もっと細粒度にするとそのニーズが満たせると思う

その後で、色々なものを日本語化して検索対象にしたい

例: https://sayit.pdis.nat.gov.tw/speaker/audrey-tang-2

単なるベクトル検索でよいのか？

何をすれば理解の支援になるのか？