TerminalでPDFをOCR

するには、tesseractを使うとよい

簡単にPDFをOCRできる

install

$ sudo apt install tesseract-ocr tesseract-ocr-jpn

WSL2だとread_params_file: Can't open jpnというエラーが出る

sudo apt install libtesseract-devも実行すると直る

使う

$ tesseract page-001.png page-001 -l eng+jpn pdf

縦書き日本語の場合はjpn_vertを指定する

text fileで出力したいときは、pdfを消す

TerminalでPDFを画像に変換したファイルを一気に変換する場合は、次のコマンドが便利

$ find "./image" -type f -name "*.png" | sed 's/\.png$//' | xargs -P4 -n1 -I% tesseract %.png % -l eng+jpn

2021-02-15 21:42:16 とても動作が遅くなる？

xargs -Pで並列実行しているせいか？

-P4にしたらどうだろうtakker.icon

21:45:20 ビンゴ！CPUのcore数よりも大きな値を指定したから遅くなったんだ

coreと同じ数なら、一切ブロックすることなく計算できる

Windowsでも使える

Installerはここからdownloadできる

Installer wizardで、追加の言語パックを指定できる

日本語の縦書き用もある

というか、Windows版のほうが圧倒的に早い

理由はわからん

WSL2経由でwindows環境のtesseractを呼び出すと良い