ScrapboxはLLMに食わせるデータ形式として適しているか?
from 2023/03/11
ScrapboxはLLMに食わせるデータ形式として適しているか?
Scrapboxが他のフォーマットに比べてLLMに食わせるデータ形式として適している気がするがそれはなぜか?
関連 Scrapboxの文章はLLMにも読みやすいのでは
すでに活用されてる点
たくさんの話題が書かれた長いページではなく、一つの内容の短いページが推奨される
ChatGPTに与える時に500トークンに区切って与えているが、過半数のページが500トークン以内に収まっている
リンクによって文脈を表現できるので同じ説明を何度も書く必要がない
このことによっても各ページがコンパクトな表現になっている
LLMはリンクを理解してリンク先を参照できるんだろうか?yosider.icon
そもそも人間が文章を読むのとは全然違うやり方?なのでそういう話ではない?
リンクを見つけたらそれをkeyにしてリンク先にattentionするとかできるんかな
Bing AIはできてるっぽいtakker.icon
/nishio/リンクのない文章#63f572bcaff09e0000b30e48
活用できそうだがまだされてない
箇条書き
箇条書きの構造を理解してチャンクにわけることができれば良いのではという話
ところがアウトライナーとしてのScrapboxの機能は不十分であることによって、人間がScrapbox上で大きな箇条書きツリーを作った場合、それはツリーとしてよく整理されているわけではない
むしろ長くなったら枝に名前をつけて切り出すことを示唆する設計
アウトライナーとしての機能が十分であっても、人間の脳の機能が不十分な気がするyosider.icon
TextSplitter#63f5253479e11300000b2bb7
チャンクに分けるところもLLMにやらせることはできる?yosider.icon
end2end
不可能ではないなnishio.icon
「下記の文章の重要な部分を500トークンで抜き出せ」的な方法
リンク
文中リンクには重要な意味がある
リンク先に別のページがあるケース
ないけど2ホップ先があるケース
強調としての意味
造語であることを表現する鉤括弧的な意味
現状は大部分無視されてしまう