書籍スキャンPDFをScrapboxに置く2019
2019-10-08
画像にバラした後スクリプトでGyazo Proにアップロード
時間がかかるのでしばらく経ってからOCRデータを取得している
裁断スキャンPDFならそれでOK
スライドのPDFなどはNG
ローカルにMD5ハッシュでフォルダを切って保存している
それをAWSにsyncする
めっちゃ親切に書いてあるな
手元で削除してもS3上のものは削除されないので安心
AWSへのsyncは実は必須ではない
gyazoにfileの中身を送っているから
$ pdftocairo -r 200 -f 0 -jpeg <pdf> pages
複数のPDFをまとめて1つのJSONにするようにした
pdfstojson.rbがmakejson.rbを呼び出す
Pythonでやる方法も調べたが、makejson.rbを子プロセスとして使う形で実現できた
JSONができてしばらくしてからGyazoからOCR結果をダウンロードして加筆する