Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA

Conference / Journal: CVPR

Year: 2020

Group/Author: Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach

memo:

TextVQAタスク

これまでのTextVQAタスクの課題

・ 2つのモダリティの pairwise mul-timodal fusion mechanismに依存しており相互作用の種類に制限

・解答予測をsingle-step classification problemとして扱う︰画像からのコピーもしくはセットからの解答を選択などの二者択一

・複雑な解答を生成することは困難

・画像テキストの見逃し (フォントの問題や空間的に離れているなど)

提案モデル: 画像と質問から特徴を抽出するモジュールとdynamic pointer networkを用いて解答を生成

・基本的なモジュール：2つのモダリティのペア間のcutom pairwise fusion機能に基づいて予測→異なるモダリティを共通の意味空間に埋め込むために，モダリティ間のコンテキストをモデル化するためにAttentionを活用　

3つのモダリティ (image, text ,OCR)を融合し，各モダリティかの埋め込みを同じ空間に投影

・動的ポイントネットワーク (dynamic pointer network)を用いて多段階の予測によって回答を形成していく

https://gyazo.com/06e7a0593e37c215b8a814b3a7bac65e