書籍は目次と索引の言語モデルが特殊

書籍をコーパスにした時の問題点

書籍は

前書き

本文

索引

という構造になっているが、目次と索引の言語モデルが明らかに独特

単純に8割1割1割で分割したらテスト用データに丸っと索引が入って絶対うまくいかない

とりあえず目視で本文の最初と最後を指定する

code:python

In 44: re.findall("「はじめに」では", data)

In 45: re.findall("楽しみにしています。", data)

code:python

BEGIN_BODY = "「はじめに」では"

END_BODY = "楽しみにしています。"

assert len(re.findall(BEGIN_BODY, data)) == 1

assert len(re.findall(END_BODY, data)) == 1

とはいえ、第1章と第7章では扱っているトピックが違うのだから、出現する単語も違うわけで、本文を抽出してから単純に8割1割1割で分割してもやっぱダメじゃね？って気もする。

ページごとに分割した上で分けるべきかな〜