チャットのログからLLMでWikiのようなデータを作る
LLMが生成したページで重複したものを除く仕組みをどうするかinajob.icon
ベクトル検索だと、意外と人間が見て、それは重複じゃないんじゃない?みたいなものも近い距離にいたりする
ベクトル検索があらゆる関連検索を打倒する、とかそういうことじゃないんだなと実感した
案外昔ながらのテキスト類似度ののほうが有効そう
PythonのSequenceMatcher
ゲシュタルトパターンマッチング
これでかなりいい感じに重複記事が消せる
基が同じソースなので、重複記事に出てくる文字列は見た目にもかなり似通っている
ある程度「安定」していそう
何度実行してもこれ以上記事が作られない、に近づいた
複数のアルゴリズムを組み合わせて類似判定するとさらに精度を上げられそう
同じ仕組みはポッドキャストの書き起こしにも転用できそう
124記事出来てる
チャットしているだけで記事がたまっていくのは面白い
まだ自動化は出来てなくて、手元でスクリプトをたまに回して記事にしている
同じチャットのログでも切り取り方で様々なページが作られる
同じログでも再実行すると似たような違うページがたくさんできる
楽しいのだが、どこで止めるかがむずかしい
後工程で似たページをマージするが、似たページと認識されないこともある
似たページとは?
A. embeddingされたベクトルのコサイン類似度が非常に大きい
B. タイトルがよく似ている
意外とAでは間違いが多い
安定させたい
何度実行してもこれ以上記事が作られないみたいな感じをイメージ
このしくみいいなーtakker.icon
ちらっと見た、面白いseibe.icon基素.icon
チャットのログからLLMでWikiのようなデータを作るinajob.icon ベクトル検索の結果を付け足した(付け足しただけ)
バッチ処理でベクトル検索で類似ページを見つけて末尾に書き足すだけ
LLMに一応ブラケティングしてもらっているけど全部にはついていない
でも別にベクトル検索あるからそこまで頑張ってブラケティングしなくても良いかな?
なるほどなーnishio.icon
AIの考えた類似ページに追加して、それが不満ならそれが入るページを作ればいいのか
類似度が高すぎるページをマージするなども便利でしたinajob.icon
同じChatログから何度もページを作らせると、似たようなページが作られるのです
というか、とにかく一回LLMにページを作ってもらって、そのあとベクトル検索して、関連度の高いページをマージするというのが考えることが少なくて良さそう
特定のページにたくさん入りすぎたときも切り出したりすれば良いし
なんか植物的にCosenseページが成長する感じ
LLMと議論していて出てきた言葉 「個人の成長と創造性を刺激し、多様な価値観が共存する、有機的で進化し続ける「知的生態系」」inajob.icon
Chat to Wikiはある程度わかってきたので、次はWiki to Chatを考えたい
Wikiを人間に編集させる
考えることが多そうで難しそう
人間が書いた内容がLLMによって消されたり編集されたりすることになるが、なんか嫌な気がする
そもそもChatでコミュニケーションしたい人が集まっているのでWiki側をいじる人も少なそう
しかし、これができるとChatでもWikiでも好きな方でコミュニティに参加できる仕組みが作れる
Wikiの知識をもとにLLMがChatに発言する
こっちを試したい
その後Chat側で話題が続いたらその結果をまたWikiに還元したい
そのChat由来ではないデータを持ったWikiを使うこともできる
まぁそれはよくあるやつか
LLM to Wikiか、この文脈だとWikiの知識で書き込むLLMという話だったからWiki to Wikiでもまぁ合ってるかな
あーなるほどtakker.icon
リンクがクリックできるようにした
何となくページをサーフィンできるはず
チャットのログからWikiっぽい情報を抜き出す実験
これをまたチャットの流れに戻していけると良いのだろうか?
こちらはこちらでScrapboxとかにページを作って盛り上がるようにする?