PDF2Cosense

github

使い方: PDFをCosenseに変換する

保留しているところ

dos対策

これやる必要あるんだろうか

gyazoってAPIで提供されているし、普通にリクエストも多そうだし割と何もしないでも大丈夫なんじゃないかという気もする

pdf→画像に変換するところを、mupdfをそのまま実行している

rustのlibraryとかではなく、シェルのmupdfをそのまま使ってる

todos

ocrエラーのログをもうちょい整理したい

devbox shellしてない時に、なんかわかりやすいエラーを出してほしい

今は正常に進んだような挙動になっている

pdf→image時のログがおかしい: 1冊しかないときは、最初からログが埋まっている状態になっている

複数dirでimage→cosenseする際のログがおかしい: MultiProgressの導入

ページ注入するやつを複数注入できるようにしたい

プロフィールページと、gpt-4のページを同時に注入したい

真っ白な画像があった時に、ocrがErrorになる

ocrしても入るテキストがない

しかし、5階ぐらいリトライしてocrが空だったらerrrorを返すような実装になってるから

/mrsekut-book-4873115655/028こういう空白のリンクができてしまう

せめて空でもいいのでページは作りたい

configはoptionとして指定できるようにする

clap

binにしたときって、devbox内包できないんじゃない？

mutexがないと起こられることになる

test?

command駆動にしてみるか？

行っている各操作を非同期に実行できるコマンドとして整える

各自の結果はどこかのキューに入れていく感じ

a | b | cのようにコマンドを実行する

zxかbun shellで実装すればいい

以前に、全部やって回すか、1個ずつ回すかみたいなのを悩んでいたが、今思えばどっちも不適だった

JSで実装しているということも隠す

e2eテスト

- sample pdfをocrと通信して、文字の内容を比較する

bufferがdeprecatedというwarningがCLI上に出てる

/miyamonz-books/新規プロジェクト作成とかの自動化したい

わかる

スクボ読書済みのpdfをs3に投げる

/miyamonz/uploadコマンドでscrapboxに任意のファイルを投げる便利そうって思ったmrsekut.icon

1章が1ページのほうが良さそう

物理的な本の制約を食らってるだけな気がしてきた

改行しながら読む

視覚的に構造化する

Scrapbox読書のスクリプトにそういうのを入れる？

章の始まりのページをリストとして与えるとか、

それこそAIに解釈させるとか

OCRのテキストを信用できるかが味噌になってくるのか

そういう意味ではepubの方が良い

確かに、ocrしてる意味がそもそも薄いよな

最初からテキストで取れればいい

テストコード

Gyazo OCRが変な箇所で改行されているので、joinしてからjsonに変換しておきたい

単語中で開業されるとリンクにできないので困る

検索にも引っかかりづらくなる

ただし、これは数学書など記号や図が多いとぐちゃぐちゃになってしまうかもしれない(?)

types/の中が適当すぎる

翻訳できないかな

/villagepump/eiGoogle

deepl使うよりgpt-3.5使うほうがいいらしい

目次の扱い

スクボで良い感じに目次を生成してリンクにできないか

https://books.rakuten.co.jp/e-book/kobo/library/

英語の論文とか、1ページの中で2blockにわかれてるやつも多くあるが、あれもうまくOCRできるのか？

↓こういう形式のやつ

https://gyazo.com/0c1cc73324228236edcb92f576ab00aa

kindle

kobo

https://books.rakuten.co.jp/e-book/kobo/library/

英文の自動翻訳も載せる、とかするのも便利そう

PDF画像、OCR、翻訳

/inteltank/DeepL

/villagepump/自分の公開プロジェクトの英語版を機械翻訳で作りたい

/masui/Scrapboxテキストを翻訳する

#作った