ViLBERT - 🍣YuWd(和田唯我)のメモ🍣

ViLBERT

BERT同様, 転移学習モデル

なので, IMGトークンやCLSトークンを導入する

画像の埋め込みはどういう実装...?

例えばViTだと, 普通に行列$ Eを掛け合わせている or ResNetを用いる (これをハイブリット方式と呼ぶ)

各パッチをEで埋め込み、CLSトークンを連結したのち、位置エンコーディングEposを加算しています。ちなみに EEの代わりにResNetで各パッチを埋め込んでも良さそうです。この場合、パッチはFlattenさせずにResNetへと入力し、その出力に対してFlattenを行います。論文中ではパッチの最初の埋め込みにResNetを用いる手法のことをハイブリッドと呼んでいます。

https://qiita.com/omiita/items/0049ade809c4817670d7

https://gyazo.com/9a18e94bfb3df9a7adee51f9480d7c2b

Co-Attention Transformerにより, 画像と文章をfusionさせる

https://gyazo.com/c53c73c8c43ae20f7f27c98afcce7bb9

どのようにfusionさせるのが最適か？

→ Attention Bottlenecks for Multimodal Fusion

通常のTransformerで, encoderの出力をdecoderに入力する機構は, Cross-Attentionと呼ばれる...? → 要出展 todo

https://gyazo.com/ceb2ac2da6a236b82cef98c31c775ab8