Scrapboxの文章はLLMにも読みやすいのでは

色々な面において、↑が言えそうblu3mo.icon

2023/02/22 猫

リンクのない長文のページはどこを注目すればいいかわかりにくい、リンクがあればAIにとって読みやすい

TextSplitter

Scrapboxのインデント形式に対応したTextSplitterを作ると役に立ちそうblu3mo.icon

例えばすごい長いページがあったとする

既存のTextSplitterは、単純に分割しようとする

単純に文字数で分割したり、意味のまとまりで分割したり、色々ある

けど、どれも文の順番は保ったまま一部を切り出してチャンクを生成している

箇条書きであれば、「長い文章のうちの3段目のインデントまでの内容を切り出す」みたいな感じで小さいチャンクを取り出すことが可能blu3mo.icon

インデントの深さで意味を表しているからこそ、簡単な文字処理で、異なる粒度のチャンク抽出ができるblu3mo.icon

これ、Scrapboxを用いたChat Botが他のもの（普通のウェブサイト, Mem, etc）と比べてめっちゃ良いものになる可能性があるのではblu3mo.icon*3

ナレッジグラフがあるからかtkgshn.icon*2

（元々上で言いたかった話とは違うが、それもそう）blu3mo.icon

+1nishio.icon

やっとSemantic Webに近いてきたtkgshn.icon*3

機械がやるより人間がやった方が精度がいいうち（「AGIまで」？）は、「Web空間のデブリ」を掃除することが人間の仕事になると思う

Semantic Dataはデータ生成のインセンティブが提供者と受益者で合致しないというのが問題だと思っている

@0xtkgshn: ここで学んだSemantic Dataの難しいところは、データを生産する人たちのインセンティブがないところだと思っている。これは公共制度作業をする公務員という概念が存在しているのがだめ。彼らは綺麗にデータを入れるインセンティブがない。

/tkgshn/ChatGPTのオープンソース版である「OpenAssistant」がプロンプトに対する回答の精度を向上させるためにアノテーションプラットフォーム使ってみんなで"AIを所持する未来"を作ってきた

↑は自分の見てる範囲なので「DAO」という言葉を使ったけど、別にScrapboxと考えられる

各DAOがAIを所持するような未来ではみんなで育てる必要がある。そのための労働がSemantic Annotationなのではないか

標準モデルに対して、各DAOでファインチューニングする未来？

そもそもなぜ機械モデルに対して、Semantic Annotationするかというと、回答の明瞭度が上がるため。

Semantic Web Technologies for Explainable Machine Learning Models: A Literature Review

綺麗なナレッジグラフを作るための手段

ここにきて/tkgshn/APLLOとかの価値が上がるのかな

なるほど、インセンティブnishio.icon

機械が読みやすい形でデータを作れば機械が助けてくれる確率が上がる

自分に近い情報を入れれば入れるほど自分に近い価値が生み出される確率が上がる

最近描いたこれとも関連しそう

https://gyazo.com/0fd55d4e22a251d89783a76b553e1d01

/nishio/日本語言語モデルについて考えたこと

これ面白かった基素.icon

ふと思い出したのだけど、なぜ僕が自分の学んだことや考えを公開の場に書いていくようになったかというと、大学生の頃にGoogle検索が現れて「公開の場に置いておくと『賢い検索』ができる」となったからなんだよなー

当時はまだ非公開のままでは賢い検索ができなかった

なるほどtkgshn.icon*6

自分が過去にやったことを思い出すために記事を書き連ねていった

面白いnishio.icon

いま「人間が読む」想定で「なんとなく」作られているネットワーク構造だが、LLMが読むことを想定すると「こうすると良い」的な指針が立ったりするのかな

メッチャ気になるwogikaze.icon

インデントxLLMはどんな化学反応するのか全く予想がつかない

/blu3mo/Fractal Summarizer とも相性が良さそうtkgshn.icon*2

パラグラフだと、どの部分までが同じことに言及しているのか分解が難しい。（それを無理やり階層化しているのがフラクタル要約という理解）

ただ、箇条書きは文章の構造自体が意味を持っていることになる

言い換えると、Scrapboxの一番上の段落だけ読めばざっくり意味がわかるようになっている。

ただ、どんなふうに相性がいいかはあんまり明確にはわかってないかもwtkgshn.icon*4

関連?: 箇条書きから文章になおす

構造化されたテキストはコンピューターで解析しやすい