CvT
#paper
Convは高い
ロバスト性
を持つ
例えば画像のシフトに強かったり
⇒ ViTにConvを導入
Conv自体はパッチ分割 & 線形変換と同じ
CvTはパッチ同士が重なり合う
Positional Encodingは行わない
Convが同じことをやってるらしい ... ?
How Much Position Information Do Convolutional Neural Networks Encode?
https://gyazo.com/6c4e175dee46ddc70c90103be6b3463f