書籍テキストからの本文抽出
目次や索引、脚注
見出しもそのまま結合すると文章として変
書籍は目次と索引の言語モデルが特殊