TerminalでPDFをOCR
install
$ sudo apt install tesseract-ocr tesseract-ocr-jpn
WSL2だとread_params_file: Can't open jpnというエラーが出る sudo apt install libtesseract-devも実行すると直る
使う
$ tesseract page-001.png page-001 -l eng+jpn pdf
縦書き日本語の場合はjpn_vertを指定する
text fileで出力したいときは、pdfを消す
$ find "./image" -type f -name "*.png" | sed 's/\.png$//' | xargs -P4 -n1 -I% tesseract %.png % -l eng+jpn
2021-02-15 21:42:16 とても動作が遅くなる?
-P4にしたらどうだろうtakker.icon
21:45:20 ビンゴ!CPUのcore数よりも大きな値を指定したから遅くなったんだ
coreと同じ数なら、一切ブロックすることなく計算できる
Windowsでも使える
Installerはここからdownloadできる Installer wizardで、追加の言語パックを指定できる
日本語の縦書き用もある
というか、Windows版のほうが圧倒的に早い
理由はわからん
WSL2経由でwindows環境のtesseractを呼び出すと良い