書籍は目次と索引の言語モデルが特殊
書籍をコーパスにした時の問題点
書籍は
前書き
目次
本文
索引
という構造になっているが、目次と索引の言語モデルが明らかに独特
単純に8割1割1割で分割したらテスト用データに丸っと索引が入って絶対うまくいかない
とりあえず目視で本文の最初と最後を指定する
code:python
In 44: re.findall("「はじめに」では", data) In 45: re.findall("楽しみにしています。", data) code:python
BEGIN_BODY = "「はじめに」では"
END_BODY = "楽しみにしています。"
assert len(re.findall(BEGIN_BODY, data)) == 1
assert len(re.findall(END_BODY, data)) == 1
とはいえ、第1章と第7章では扱っているトピックが違うのだから、出現する単語も違うわけで、本文を抽出してから単純に8割1割1割で分割してもやっぱダメじゃね?って気もする。
ページごとに分割した上で分けるべきかな〜