AzureのOCRを使って画像PDFをリッチにする
logseqに残したログ
http://localhost/logseq://graph/Main?page=2024%2F02%2F23
QsZyN/Azure_OCR
たまに画像を貼り付けただけのPDFが手に入る機会がある.このPDFをOCRしてなんとか便利なPDFに生まれ変わらせたい.OCRすれば検索もできるし,マーカーも引けちゃう.
何を実現したか
低価格でOCR(学生は無料)
学生モードが定期的に消える
サポートに,「誤ってサブスクリプションを解除してしまった」と送ると,こちらの確認では有効化されていますと言われ,そうすると本当に使えるようになる
観測されないと消えてしまうサブスクリプション
オマケ
数字をクリックすると,そのページに飛べる
結構便利じゃないか?
完成までの道のり
色々なOCRを試してみた
どうやら機械学習の助けを借りるOCRが流行ってる
MacのプレビューはプアなPDFでも勝手にOCRしてくれる
もうこれでいんじゃね?
自分はLogseqで扱いたいのだ!
Azureで検索可能なPDFを作るクックブックがコミュニティに投稿されている
Azureの評判は2chanでもいい
https://egg.5ch.net/test/read.cgi/software/1711002779
Generate searchable PDFs with Azure Form Recognizer
しかし日本語フォントや縦書きなどの問題でそのままコピペではうまく動作せず
画像抽出じゃなくて画像変換だったので画質と容量のバランスになってしまう
短いコードだし,自分で1から作るか
PymuPDFというライブラリを使うことに
日本語のドキュメントが用意されていて何度も参照
ダメもとでChatαGPT先生にも聞いてみた
成果物
https://scrapbox.io/files/6621d60d2c85630025dbf6e2.jpghttps://scrapbox.io/files/6621d610fec28c002548cfb2.jpg
今はアクティブ読書に移行したため活躍していない
課題
改行問題
改行されていると文字を認識できないのではないか
中途半端な角度の文字
OCR時に縦書きと横書きは判別してくれないのか
座標の1は常に左上につく
searchble PDF直接作れるやん
https://learn.microsoft.com/ja-jp/azure/ai-services/document-intelligence/prebuilt/read?view=doc-intel-4.0.0&tabs=sample-code#use-searchable-pdfs
結果の取得は/pdfディレクトリを呼び出す
AzureのsearchblePDFは縦書きだと失敗する
コード書かずに,document inteligence studioでGUIで実行してPDF落とせる
オプションでsearchblePDF
ダウンロードはcuntentのタブを選択してダウンロード
https://pymupdf.readthedocs.io/ja/latest/page.html#Page.get_text
ファイルをストレージサービスにアップしてから
今の所dropboxを使っている
wwwをdlに置き換える
postman公開したいんだけど
PDFにページジャンプリンクを追加するコードを分離した