FractalReader 適切な入力文章分割をやりたい
適切な入力文章分割をやりたい
たとえば文中で章が分かれているなら、そこで要約を区切って欲しい
論文などの章立てで分かれているものは現状だいぶ読みづらい
自分の分野の論文なら章立てのテンプレ構造を把握しているので、章立ての情報を使えると読みやすくなると思う
わかる〜nishio.icon
Plurality Bookに限定するならMarkdownのデータがあるからそれをパースするのが良さそう
一般論としては「短くて文章ではない行」の出現がヒントになりそう
ただし箇条書きや表や図のキャプションなどの罠がたくさんある
コストのことを考えなければコンテキスト幅の広いLLMに投げて分割してもらいたい
これでいける気がしますblu3mo.icon
どちらにせよ全文を何度も放り込んでいるので、コストは大して変わらない
考えている設計blu3mo.icon
LLMに放り込んで、一回いい感じにマクロに分割してもらう
章分けされているならそれに従って欲しいし、されていないならいい感じに展開に従って分割して欲しい
その分割より詳細度が高い要約レベルでは、この分割のところでチャンクが分かれるようにする
その分割より詳細度が低い要約レベルは今まで通り