PDF2Scrapbox
todos
依存してるlibraryがちゃんと動くか知らないが
npm library化してnpxで使えたほうが便利
e2eテスト
- sample pdfをocrと通信して、文字の内容を比較する
bufferがdeprecatedというwarningがCLI上に出てる
わかる
スクボ読書済みのpdfをs3に投げる
1章が1ページのほうが良さそう
物理的な本の制約を食らってるだけな気がしてきた
改行しながら読む
視覚的に構造化する
Scrapbox読書のスクリプトにそういうのを入れる?
章の始まりのページをリストとして与えるとか、
それこそAIに解釈させるとか
OCRのテキストを信用できるかが味噌になってくるのか
そういう意味ではepubの方が良い
確かに、ocrしてる意味がそもそも薄いよな
最初からテキストで取れればいい
テストコード
Gyazo OCRが変な箇所で改行されているので、joinしてからjsonに変換しておきたい
単語中で開業されるとリンクにできないので困る
検索にも引っかかりづらくなる
ただし、これは数学書など記号や図が多いとぐちゃぐちゃになってしまうかもしれない(?)
types/の中が適当すぎる
翻訳できないかな
deepl使うよりgpt-3.5使うほうがいいらしい
README
目次の扱い
スクボで良い感じに目次を生成してリンクにできないか
gyazo-apiに型を付ける
横長のやつが失敗する
だいぶ前にリーダブルコードを見開きスキャンしたことがあってそれがこんな感じになる
https://gyazo.com/2458de65efc3dde9001a094df71c49d3
英語の論文とか、1ページの中で2blockにわかれてるやつも多くあるが、あれもうまくOCRできるのか?
↓こういう形式のやつ
https://gyazo.com/0c1cc73324228236edcb92f576ab00aa
kindle
kobo
英文の自動翻訳も載せる、とかするのも便利そう
PDF画像、OCR、翻訳