スキャンすると自動で画像を保存する仕組みを自作したい
ソフトウェア系のプロジェクトだが、こういうのも書いていきたい・・inajob.icon
保育園で買える娘の写真がアナログの紙に印刷したものなのでキャプチャしたい。また日々の生活で溜まるプリント、書類もササっとスキャンして物理的な紙は捨てたい。
さらに検索可能になるとうれしい
古い中古のスキャナーが安いが、64bitOS用のドライバが供給されていないことが多い
が、Linuxで動かすなら関係ない
「そのままの大きさで印刷する予定なら300dpiでスキャン。拡大印刷する予定ならその拡大分だけ解像度を高くしておく」
なるほど
人間の目で識別できる限度は300dpi
Linuxでスキャナーを使う場合はSANEという仕組みのお世話になる 対応機種が多いが、サポートしていないものもあるので要チェック
事例
CanoScan LiDE200
ボタンごとにカスタムの処理を組めるらしい
この記事が一番やりたいことに近い
CanoScan LiDE 30
scansnap 1300i
Canon N1240U
この製品を使うとWindowsでも古いスキャナーが使えるらしい
ログ
code: bash
sudo apt-get install scanbd
必要なパッケージはこれだけ
code: bash
scanimage --mode Color --resolution=150 --format jpeg > test.jpeg
とかで普通にスキャンできた
大きさは引数で指定する
自動トリム
code: bash
convert -fuzz 10% -trim scan_image_2022101415541665730470.jpg converted.jpg
ただ、少しでも端に縞模様とかが写っているとうまくトリムできない様子
OCR
code: bash
sudo apt-get install tesseract-ocr tesseract-ocr-jpn
文字情報入りのPDFを作る
code: bash
tesseract -l jpn image.jpg ocr.pdf pdf
認識した文字情報をテキストファイルに出力する
code: bash
tesseract -l jpn image.jpg ocr.txt
exifにテキストの内容を設定する
ただし仕様の問題で2000文字までしか入らない
code: bash
exiftool -codedcharacterset=utf8 -IPTC:Caption-Abstract="$( cat ocr.txt| tail +2 |tr '\n' ' ')" converted.jpg
ふるさと納税にあった。
PDFは本文にOCRかけてくれるみたい。
もはやfabではない。
スタンドアローンでそこまでできるんです?それともPC側ユーティリティ?inajob.icon
中古で7000円くらい
自作するという点からはズレるけど、A3スキャンまで考えるとプリンタとセットにしちゃってPX-M6011Fがコスパ最強かも?Yuuki Umeta.icon 2〜3年ぐらいメインで使っているけど、困ることはないかなYuuki Umeta.icon
設定してないけど、自動保存とかPDFで連続ページにするとかできる