行継続判定
https://gyazo.com/fd84512e90f5c91ef5c1564764f73591
PDFをテキスト化したものは、行ごとに分かれている
文の途中でも改行されているので、自然言語処理をする前に結合しなければならない
しかし100%繋いで良いわけではない
見出し
箇条書き
図キャプション
コード
脚注
数式
URL
数式
・コード・URLなどは異質なので取り除きたい
行継続モデル
適切なルールを人間が言語化できない時が機械学習の出番
直接繋いではいけないものと、繋いでもいいもの