Scrapboxの文章はLLMにも読みやすいのでは
色々な面において、↑が言えそうblu3mo.icon
リンクのない長文のページはどこを注目すればいいかわかりにくい、リンクがあればAIにとって読みやすい
Scrapboxのインデント形式に対応したTextSplitterを作ると役に立ちそうblu3mo.icon
例えばすごい長いページがあったとする
既存のTextSplitterは、単純に分割しようとする
単純に文字数で分割したり、意味のまとまりで分割したり、色々ある
けど、どれも文の順番は保ったまま一部を切り出してチャンクを生成している
箇条書きであれば、「長い文章のうちの3段目のインデントまでの内容を切り出す」みたいな感じで小さいチャンクを取り出すことが可能blu3mo.icon
インデントの深さで意味を表しているからこそ、簡単な文字処理で、異なる粒度のチャンク抽出ができるblu3mo.icon
これ、Scrapboxを用いたChat Botが他のもの(普通のウェブサイト, Mem, etc)と比べてめっちゃ良いものになる可能性があるのではblu3mo.icon*3 (元々上で言いたかった話とは違うが、それもそう)blu3mo.icon
+1nishio.icon
機械がやるより人間がやった方が精度がいいうち(「AGIまで」?)は、「Web空間のデブリ」を掃除することが人間の仕事になると思う @0xtkgshn: ここで学んだSemantic Dataの難しいところは、データを生産する人たちのインセンティブがないところだと思っている。これは公共制度作業をする公務員という概念が存在しているのがだめ。彼らは綺麗にデータを入れるインセンティブがない。 ↑は自分の見てる範囲なので「DAO」という言葉を使ったけど、別にScrapboxと考えられる
各DAOがAIを所持するような未来ではみんなで育てる必要がある。そのための労働がSemantic Annotationなのではないか
なるほど、インセンティブnishio.icon
機械が読みやすい形でデータを作れば機械が助けてくれる確率が上がる
自分に近い情報を入れれば入れるほど自分に近い価値が生み出される確率が上がる
最近描いたこれとも関連しそう
https://gyazo.com/0fd55d4e22a251d89783a76b553e1d01
これ面白かった基素.icon
ふと思い出したのだけど、なぜ僕が自分の学んだことや考えを公開の場に書いていくようになったかというと、大学生の頃にGoogle検索が現れて「公開の場に置いておくと『賢い検索』ができる」となったからなんだよなー
当時はまだ非公開のままでは賢い検索ができなかった
なるほどtkgshn.icon*6
自分が過去にやったことを思い出すために記事を書き連ねていった
面白いnishio.icon
いま「人間が読む」想定で「なんとなく」作られているネットワーク構造だが、LLMが読むことを想定すると「こうすると良い」的な指針が立ったりするのかな
メッチャ気になるwogikaze.icon
インデントxLLMはどんな化学反応するのか全く予想がつかない
パラグラフだと、どの部分までが同じことに言及しているのか分解が難しい。(それを無理やり階層化しているのがフラクタル要約という理解) ただ、箇条書きは文章の構造自体が意味を持っていることになる 言い換えると、Scrapboxの一番上の段落だけ読めばざっくり意味がわかるようになっている。
ただ、どんなふうに相性がいいかはあんまり明確にはわかってないかもwtkgshn.icon*4