2018-09-30
https://gyazo.com/e1c1058a73c7fc5cc1c7cf57e4d90a40
休暇で作ったものの関係を忘れないように図解しておいた
書籍PDFから
テキスト抽出
テキスト中の
CIDフォント埋め込み
を置換する
テキストから
本文抽出
これこの図を描いた後
機械学習による書籍PDFからの本文抽出
に発展
本文データから
キーフレーズ抽出
キーフレーズを元に
チャットボット
作成
neologd
辞書で形態素解析して単語列を得る
単語列をRNNで言語モデルにする
言語モデルから文章生成