Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA
Conference / Journal: CVPR
Year: 2020
Group/Author: Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach
memo:
TextVQAタスク
これまでのTextVQAタスクの課題
・ 2つのモダリティの pairwise mul-timodal fusion mechanismに依存しており相互作用の種類に制限
・解答予測をsingle-step classification problemとして扱う︰画像からのコピーもしくはセットからの解答を選択などの二者択一
・複雑な解答を生成することは困難
・画像テキストの見逃し (フォントの問題や空間的に離れているなど)
提案モデル: 画像と質問から特徴を抽出するモジュールとdynamic pointer networkを用いて解答を生成
・基本的なモジュール:2つのモダリティのペア間のcutom pairwise fusion機能に基づいて予測→異なるモダリティを共通の意味空間に埋め込むために,モダリティ間のコンテキストをモデル化するためにAttentionを活用
3つのモダリティ (image, text ,OCR)を融合し,各モダリティかの埋め込みを同じ空間に投影
・動的ポイントネットワーク (dynamic pointer network)を用いて多段階の予測によって回答を形成していく
https://gyazo.com/06e7a0593e37c215b8a814b3a7bac65e