AI-OCR
AI-OCR とは
AI-OCR(AI-OCR)とは、文書の画像データを読み込み、記載された文字をデータ化するOCR(Optical Character Reader)に、AI(Artificial Intelligence)を搭載した技術のことです。
多くの SaaS で導入されている
https://scrapbox.io/files/6595f833f5de6f0023833333.png
Google Cloud Vision API
Ruby で AI-OCR を試してみる
1. rails new する /icons/done.icon
2. 適当なアプリを準備する /icons/done.icon
3. rtesseract のOCRを実装する /icons/done.icon
code:zsh
$ brew install tesseract
$ brew install tesseract-lang
code:zsh
tesseract 5.3.3
leptonica-1.84.0
libgif 5.2.1 : libjpeg 8d (libjpeg-turbo 3.0.0) : libpng 1.6.40 : libtiff 4.6.0 : zlib 1.2.11 : libwebp 1.3.2 : libopenjp2 2.5.0
Found NEON
Found libarchive 3.7.2 zlib/1.2.11 liblzma/5.4.4 bz2lib/1.0.8 liblz4/1.9.4 libzstd/1.5.5
Found libcurl/7.88.1 SecureTransport (LibreSSL/3.3.6) zlib/1.2.11 nghttp2/1.51.0
code:zsh
$ bundle add rtesseract
code:ruby
file_path = @document.image_file.path
image = RTesseract.new(file_path, lang: 'jpn')
@text = image.to_s
rtesseract は PDF は解析できない
Error in pixReadStream: Pdf reading is not supported
Leptonica Error in pixRead: pix not read: /**/sample.pdf
4. google-cloud-vision のOCRを実装する
5. いろいろなファイルで試してみる