2018-09-30
https://gyazo.com/e1c1058a73c7fc5cc1c7cf57e4d90a40
休暇で作ったものの関係を忘れないように図解しておいた
書籍PDFからテキスト抽出
テキスト中のCIDフォント埋め込みを置換する
テキストから本文抽出
これこの図を描いた後機械学習による書籍PDFからの本文抽出に発展
本文データからキーフレーズ抽出
キーフレーズを元にチャットボット作成
neologd辞書で形態素解析して単語列を得る
単語列をRNNで言語モデルにする
言語モデルから文章生成