DocVQA
https://scrapbox.io/files/664335d956e168001dc80535.png
文書ビジュアル質問応答
文書画像に対する視覚的質問応答(VQA)のための新しいデータセット。
このデータセットは12,000以上の文書画像に対して定義された50,000の質問から構成される。
https://scrapbox.io/files/664336082ec1fb001d1b5fe2.png
論文:
https://arxiv.org/abs/2007.00398
GitHub:
https://github.com/anisha2102/docvqa