視覚文書理解
FACTOOL: Factuality Detection in Generative AI A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
MatCha
DePlot
pix2struct
donut
DocLayout-YOLO
docling
Azure AI SearchでPDFをセクション毎に分割してインデックスに登録する
Table TransformerとGPT-4Vを用いたPDF内の表の解析