CvT - 🍣YuWd(和田唯我)のメモ🍣

CvT

Convは高いロバスト性を持つ

例えば画像のシフトに強かったり

⇒ ViTにConvを導入

Conv自体はパッチ分割 & 線形変換と同じ

CvTはパッチ同士が重なり合う

Positional Encodingは行わない

Convが同じことをやってるらしい ... ?

How Much Position Information Do Convolutional Neural Networks Encode?

https://gyazo.com/6c4e175dee46ddc70c90103be6b3463f