V&Lまとめ
Visual Question Answering (VQA)
1枚の画像とその画像の内容に関する自然言語の質問から、解答を推定するタスク (Agrawal+, 2015)
監視システムによる不審な情報に対する検知、視覚障害者への周囲環境の伝達、過程ロボットによる屋内環境の状況確認に役立つ
有名データセット
VQAv2(Goyal17)
CLEVR(Johnson17)
GQA(Hudson19)
Visual Commonsense Reasoning(Zellers19)
MovieQA(Tapaswi16)
Embodied Question Answering(Das18a)
既存手法
Grid(Jiang20)
画像をグリッドに分割
初めてTransformer構造を持つBERTをVQAに導入
画像領域ごとの特徴を抽出し、それに対応して質問の単語ごとの特徴を抽出
それぞれの特徴量に対してSelf-Attention
Co-Attention Transformer Layerによって関係性を学習
TRAR(TRAnsformer Routing)(Zhou21a)
標準的なTransformerにRoutingモジュール導入
質問に対して経路を選択できるように
ローカルとグローバルの選択を可能に
12-in-1(Lu20)
12種類のタスクを同時に1つのネットワーク構造で学習
タスク間の転移学習を可能に
VQAv2において当時SoTA
UniT(Hu21)
言語のみ、画像のみのタスクも同様のモデルで学習
Visual Reasoning能力を高める
Image Captioning
1枚の画像入力から、その画像内に含まれる人の行動、物体の配置や画像に表示されているシーンの状況などを認識し、1つもしくは複数の自然言語の文を出力(Vinyals15)
サブタスク
Dense Captioning Event(Krishnal17)
動画データの各時刻において説明文を生成
ScanRefer(Chen20a)
3次元の点群から3次元環境に置かれている物体の説明文を生成
Embodied Captioning
Embodied環境でエージェントが自己ナビゲーションしながら観測したシーンの説明文を生成
有名データセット
Flickr30K(Plummer15)
MS COCO(Lin14)
NoCap(Novel Captioning)(Agrawal19)
Dense Captioning Event(Krishna17)
既存手法
Neural Baby Talk(Lu18)
物体検出モデルによって人物領域を検出
検出領域をベースに説明文を生成
画像内の各領域に対して説明文生成が可能になり下流タスクへの適用性向上
CPTR(Liu21)
ViTのように画像をパッチ分割
埋め込みとSelf-Attention
Cross-Attention
SATIC(Semi-autoregressive Transformer for Image Captioning)(Zhou21b)
説明文内の単語を同時生成
生成速度向上
DLCT(Dual-Level Collaborative Transformer)(Luo21)
Dualwat Self-Attentionで物体特徴を抽出
Comprehensive Relation Attentionの導入によって、物体同士間の関係性を学習
GET(Global Enhanced Transformer)(Ji21)
CNNで抽出した物体領域特徴間の関係性を含んだ大域的な特徴量を獲得
3DVG-Transformer(Visual Grounding on 3D Point Clouds)(Zhao21)
3次元点群から自然言語の文によって物体を特定する3D Visual Groundingタスクを扱う
SpaCap3D(Wang21)
3D Visual Groundingタスクを扱う
Transformer Encoder-Decoder構造を用いて3次元の物体特徴量を説明文に翻訳
Dense Captioning Eventタスクについて
CNNをベースにしたDense Video Captioning手法は以下の2段階で構成されるのが主流
動画からEvent(記述する動画クリップ)を検出
検出されたEventをCaptioningモジュールに入力し、説明文を生成
データセット
Activity Captions(Heilbron15)
YouCook2
Embodied AI
ロボットを想定したエージェント(Embodied Agent)を3次元環境に配置し、特定タスク(質問応答・物体操作など)を解くために、環境と物体を認識しながら、自己ナビゲーション、そして環境中の物体とのインタラクションを行う
目標
言語を介して人と会話する能力
家で自由に自己ナビゲーションする能力
家の環境を適切に識別する能力
データセット
SUNCG(Song17)
Matterport3D(Chang17)
The replica(Straub19)
AI2THOR(Kolve17)
Gibson(Xia18)
AI Habitat(Savva19)
AI Habitat 0(Azot21)
サブタスク
Embodied Question Answering(Das18a)
1つの建物内の任意の位置から、自然言語の質問(例. 「家にある車は何色ですか?」)に回答するために、自己ナビゲーションを行う
データセット
EQA
MP3D-EQA
Vision-and-Language Navigation(Anderson18a)
エージェントがEmbodied環境内の任意の位置からスタートし、自然言語の指示(例.「左に曲がってしばらく直進し、突き当りの階段を登る」)にしたがって、室内環境をナビゲート
データセット
R2R(Room-to-Room)
Remote Embodied Visual Referring Expression
3次元環境の物体を特定できる指示をもとに、エージェントがその物体が存在する位置までたどり着くために環境を観測しながら自己ナビゲーションを行う
データセット
REVERIE(Qi20)
Semantic Audio-Visual Navigation(Chen21a)
Embodied環境において、特定の物体がその物体の出す自然な音を発信し、エージェントは3次元環境でその音の発生する物体の位置を特定するために自己ナビゲーションを行う
既存手法
PACMAN(“planner-controller” navigation module)(Das+)
EQAタスクの最初の手法
行動を選択するplanner、行動を決定するcontrollerで構成
Neural Moduler Control(Das18b)
質問からサブゴールを推定
サブタスクを段階的に解く
Reinforced Cross-Modal Matching(Wang19)
VLNタスクに強化学習を導入
局所・大域に言語指示とエージェントの視覚観測の間の関係を学習する仕組みを導入
Self-Supervised Imitation Learning
Goal Oriented Semantic Exploration(Chaplot20)
REVERIEタスクを扱う
目標の物体カテゴリを考慮したEpisodic Semantic Mapを構築し、学習効率を高める
CVPR Habitat ObjectNav Challengeで優勝
EmBERT(Suglia21)
言語指示とエージェントが観測した複数画像をTransformer構造を用いて扱う
DUET(Dual-scan Graph Transformer)(Chen22)
長期の時系列情報を扱うLong Term Acton Planning、視覚言語のTransformer構造導入
HAMT(History Aware Multimodal Transformer)(Chen21b)
RNN構造が不得意だった長期の時系列データの扱い方をTransformer構造によって改善
Episodic Transformer(Preshevich21)
自然言語の指示と視覚観測におけるすべての時系列的なエピソード、および過去の行動すべてをTransformerで扱う
VTNet(Visual Transformer Network)(Du21)
シーン内部の物体間の関係性、物体と画像領域の関係性の2つを学習
OMT(Object Memory Transformer)(Fukushima)
長期系列で構成する行動軌跡をもとに、物体とシーンの関係性の学習や記憶、および観測したシーンから重要物体に対するAttention操作を行う
1 CKR(Cross-modality Knowledge Reasoning)(Gao21)
部屋と物体の関係性を扱うAttention操作、外部の物体と部屋の分布の知識を導入
REVERIEタスクでSoTA
Others
Vision and Language Representation
VisionとLanguageの概念をどう対応づけて、2つのマルチモーダル特徴量をいかにして表現するか
既存手法
12-in-1
UniT
CLIP(Contrastive Language Image Pre-training)(Radford21) Transformerがサブ構造
超大規模なWeb画像とテキストのペアデータで学習
Zero-shot物体認識でResNet50を超える
Text-to-Image Generation
テキスト情報による画像生成
既存手法
Image Generation from Scene Graph(Johnson18)
パーサ構造を用いてテキストからScene Graphを生成し、Graph Neural Networkを用いて、画像内の人物のレイアウトを生成
DALL・E(Ramesh21)
超大規模なWeb画像とテキストのデータセットを集め、TransformerとContrastive Learningをベースとしたモデルを学習
DALL・E2(Ramesh22)
CLIP構造も用いる
Coarse-to-fine構造で画像生成
Referring Expression
画像内の特定の領域を表すテキストをもとに、その領域を画像から検出し、バウンディングボックスを出力
データセット
RefCOCO(Kazemzadeh14)
既存手法
MattNet(Modular Attention Network)(Yu18)
テキスト情報を1つのまとまりで扱わずに、Subject、Location、Relationshipの3つに分けてAttention
Referring Transformer(Li21b)
画像とテキストを融合するVisual-lingual Transformer Encoderにより符号化し、テキストと融合してTeansformer Decoderでマスク出力
CMF(Cross-level Multi-modal Fusion)(Miao22)
マルチレイヤのIntra-(画像とテキストそれぞれのSelf-Attention)とInter-(相互のCross-Attention)の2つを利用
階層的な関係学習
Change Captioning(Jhamtani18)
2枚の画像から変化を検出し、その変化内容を自然言語で記述
後に画像内の複数の変化を記述するMulti-change Captioning(Qiu21)タスクが提案
既存手法
DUDA(Dual Attention Dynamic Attention)(Park19)
変化前・後の特徴と変化後・前の特徴の2つに対してAttention
RNNベースのDynamic Speakerモジュールによって、動的に画像にAttention操作を行い、変化を説明
MCCFormers(Multi-Change Captioning Transformers)(Qiu21)
変化前後の画像のCross-Attentionを行うEncoder
画像とテキストのCross-Attentionを行うDecoder