AzureのOCRを使って画像PDFをリッチにする

logseqに残したログ

http://localhost/logseq://graph/Main?page=2024%2F02%2F23

QsZyN/Azure_OCR

たまに画像を貼り付けただけのPDFが手に入る機会がある．このPDFをOCRしてなんとか便利なPDFに生まれ変わらせたい．OCRすれば検索もできるし，マーカーも引けちゃう．

何を実現したか

低価格でOCR（学生は無料）

学生モードが定期的に消える

サポートに，「誤ってサブスクリプションを解除してしまった」と送ると，こちらの確認では有効化されていますと言われ，そうすると本当に使えるようになる

観測されないと消えてしまうサブスクリプション

オマケ

数字をクリックすると，そのページに飛べる

結構便利じゃないか？

完成までの道のり

色々なOCRを試してみた

どうやら機械学習の助けを借りるOCRが流行ってる

MacのプレビューはプアなPDFでも勝手にOCRしてくれる

もうこれでいんじゃね？

自分はLogseqで扱いたいのだ！

Azureで検索可能なPDFを作るクックブックがコミュニティに投稿されている

Azureの評判は2chanでもいい

https://egg.5ch.net/test/read.cgi/software/1711002779

Generate searchable PDFs with Azure Form Recognizer

しかし日本語フォントや縦書きなどの問題でそのままコピペではうまく動作せず

画像抽出じゃなくて画像変換だったので画質と容量のバランスになってしまう

短いコードだし，自分で1から作るか

PymuPDFというライブラリを使うことに

日本語のドキュメントが用意されていて何度も参照

ダメもとでChatαGPT先生にも聞いてみた

成果物

https://scrapbox.io/files/6621d60d2c85630025dbf6e2.jpghttps://scrapbox.io/files/6621d610fec28c002548cfb2.jpg

今はアクティブ読書に移行したため活躍していない

課題

改行問題

改行されていると文字を認識できないのではないか

中途半端な角度の文字

OCR時に縦書きと横書きは判別してくれないのか

座標の1は常に左上につく

searchble PDF直接作れるやん

https://learn.microsoft.com/ja-jp/azure/ai-services/document-intelligence/prebuilt/read?view=doc-intel-4.0.0&tabs=sample-code#use-searchable-pdfs

結果の取得は/pdfディレクトリを呼び出す

AzureのsearchblePDFは縦書きだと失敗する

コード書かずに，document inteligence studioでGUIで実行してPDF落とせる

オプションでsearchblePDF

ダウンロードはcuntentのタブを選択してダウンロード

https://pymupdf.readthedocs.io/ja/latest/page.html#Page.get_text

ファイルをストレージサービスにアップしてから

今の所dropboxを使っている

wwwをdlに置き換える

postman公開したいんだけど

PDFにページジャンプリンクを追加するコードを分離した