視覚文書理解
FACTOOL: Factuality Detection in Generative AI A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
MatCha
DePlot
pix2struct
donut
DocLayout-YOLO
docling
Azure AI SearchでPDFをセクション毎に分割してインデックスに登録する
Table TransformerとGPT-4Vを用いたPDF内の表の解析
table transformer
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
Paddle OCR Documentation
Enhanced Table Extraction from documents with Form Recognizer
LLMを悩ませる"Excel文書"をうまく扱う方法
MarkItDown
①geminiが意外とテキスト検出能力が高い
②文字埋め込みなしのPDF (活字でノイズが非常に小さい画像文章) はgpt-4oやgeminiのほうがGoogle Document AIより精度高い
あたりはめちゃ意外でした
生成AIを使ってリアルな案件対応をやってみる〜麻雀牌の物体検出編〜
M3DOCRAG