OCR
画像認識
画像処理論
モデルベース特定物体認識
マルチモーダル
視覚文書理解
Vision Language Model
AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略
https://tech.layerx.co.jp/entry/aiocr-in-llm-2023
Vision API OCRを使った保険証マスキングシステムの紹介
https://note.com/newbees/n/n39f67f6daff0
【Pyocr+TesseractOCR】競馬新聞の活字化;精度向上
https://qiita.com/MuAuan/items/f60ab701c6df69cbfa19
Azure の Read API v3.2 を使って日本語 OCR の精度向上を評価する
https://qiita.com/nohanaga/items/05281ed97f5fe01f0151
Surya is a multilingual document OCR toolkit
https://github.com/VikParuchuri/surya?tab=readme-ov-file
バクラクのAI-OCRが扱う問題の複雑さ
https://tech.layerx.co.jp/entry/2024/06/30/223240
Next gen document OCR
https://getomni.ai/ocr-demo
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
https://jobs.layerx.co.jp/61237260ba634c3ba66d9f5157cfc70d
zerox
https://github.com/getomni-ai/zerox?tab=readme-ov-file#zerox-ocr
工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた
https://tech-blog.tabelog.com/entry/ai-menu-ocr
デザインパターンで理解するLLMエージェントの作り方 / How to develop an ...
https://speakerdeck.com/rkaga/how-to-develop-an-llm-agent-using-agentic-design-patterns?slide=5
PDF-to-Blog: Giving documents a second life with Mastra and Mistral OCR
https://mastra.ai/blog/pdf-to-blog