スキャナで文書管理システム
スキャナで文書管理システム
fab-wiki
- ほぼ↑に書いている
機種
- 600dpi x 1200dpi
- バスパワー
- SANEでのSupportはCompleted
OCR
> code bash
$ sudo apt-get install tesseract-ocr tesseract-ocr-jpn
<<
仕様を考える
写真
- 日付ファイル名でフォルダに入れてあればOK
文書
- 日付で絞り込みたい
- スキャンした日付
- 内容で絞り込みたい
- 文字列検索
- 専用のUIが必要
- Webベースで作る?
- ローカルならこれが簡単そう
- SlackなどのChatBotにする?
- 外部からアクセスできるサーバを作る必要あり
- 何らかのWikiのようなものにデータを突っ込んで検索はそっちを使う
自作検索ツール
テキスト検索をしつつ、ヒットしたら、それに関連する画像を表示する仕組み
テキストの仕様
OCRしたテキストと画像のパス、メタ情報が欲しい
- メタ情報
- 日付?(画像からとれるのでは?)
1行目が画像へのパスで移行がテキストにする?
一応動いたが・・
メタ情報をファイルに埋め込みたい
jpgのexifに入れられる?
- exifのタイトルに埋め込んでいる
結局
2000文字までしか入れられないのが気になるが、単語を切り取ってuniqするなどテクニックはありそう
その場合はKeywordsに入れるのがよさそう?
ロードマップ
- {x} キャプチャテスト
- { } 単発スキャンスクリプト作成
- {x} 動作テスト
- { } nadriveへの転送
- { } 何らかの通知(ひとまずSlackでいいか?)
- {x} OCR
- { } ボタンによるスキャン開始
- { } Ansibleによる管理