ViLBERT
なので, IMGトークンやCLSトークンを導入する
画像の埋め込みはどういう実装...?
例えばViTだと, 普通に行列$ Eを掛け合わせている or ResNetを用いる (これをハイブリット方式と呼ぶ) 各パッチをEで埋め込み、CLSトークンを連結したのち、位置エンコーディングEposを加算しています。ちなみに EEの代わりにResNetで各パッチを埋め込んでも良さそうです。この場合、パッチはFlattenさせずにResNetへと入力し、その出力に対してFlattenを行います。論文中ではパッチの最初の埋め込みにResNetを用いる手法のことをハイブリッドと呼んでいます。
https://gyazo.com/9a18e94bfb3df9a7adee51f9480d7c2b
Co-Attention Transformerにより, 画像と文章をfusionさせる https://gyazo.com/c53c73c8c43ae20f7f27c98afcce7bb9
どのようにfusionさせるのが最適か?
https://gyazo.com/ceb2ac2da6a236b82cef98c31c775ab8