PDF2Scrapbox

github

使い方: PDFをScrapboxに変換する

todos

リポジトリ名変えようmrsekut.icon

Scrapbox読書をするためのツール、とする

始点をPDFに固定する必要がない

command駆動にしてみるか？

行っている各操作を非同期に実行できるコマンドとして整える

各自の結果はどこかのキューに入れていく感じ

a | b | cのようにコマンドを実行する

zxかbun shellで実装すればいい

以前に、全部やって回すか、1個ずつ回すかみたいなのを悩んでいたが、今思えばどっちも不適だった

JSで実装しているということも隠す

dotenv消そう

dotenv

npm library化してnpxで使えたほうが便利

e2eテスト

- sample pdfをocrと通信して、文字の内容を比較する

bufferがdeprecatedというwarningがCLI上に出てる

/miyamonz-books/新規プロジェクト作成とかの自動化したい

わかる

スクボ読書済みのpdfをs3に投げる

/miyamonz/uploadコマンドでscrapboxに任意のファイルを投げる便利そうって思ったmrsekut.icon

1章が1ページのほうが良さそう

物理的な本の制約を食らってるだけな気がしてきた

改行しながら読む

視覚的に構造化する

Scrapbox読書のスクリプトにそういうのを入れる？

章の始まりのページをリストとして与えるとか、

それこそAIに解釈させるとか

OCRのテキストを信用できるかが味噌になってくるのか

そういう意味ではepubの方が良い

確かに、ocrしてる意味がそもそも薄いよな

最初からテキストで取れればいい

テストコード

Gyazo OCRが変な箇所で改行されているので、joinしてからjsonに変換しておきたい

単語中で開業されるとリンクにできないので困る

検索にも引っかかりづらくなる

ただし、これは数学書など記号や図が多いとぐちゃぐちゃになってしまうかもしれない(?)

types/の中が適当すぎる

翻訳できないかな

/villagepump/eiGoogle

deepl使うよりgpt-3.5使うほうがいいらしい

README

目次の扱い

スクボで良い感じに目次を生成してリンクにできないか

gyazo-apiに型を付ける

https://books.rakuten.co.jp/e-book/kobo/library/

横長のやつが失敗する

だいぶ前にリーダブルコードを見開きスキャンしたことがあってそれがこんな感じになる

https://gyazo.com/2458de65efc3dde9001a094df71c49d3

英語の論文とか、1ページの中で2blockにわかれてるやつも多くあるが、あれもうまくOCRできるのか？

↓こういう形式のやつ

https://gyazo.com/0c1cc73324228236edcb92f576ab00aa

kindle

kobo

https://books.rakuten.co.jp/e-book/kobo/library/

英文の自動翻訳も載せる、とかするのも便利そう

PDF画像、OCR、翻訳

/inteltank/DeepL

/villagepump/自分の公開プロジェクトの英語版を機械翻訳で作りたい

/masui/Scrapboxテキストを翻訳する