MetaFormer・PoolFormer
MetaFormer is Actually What You Need for Vision
MetaFormerはモデルを抽象化したもの
重要なのはToken mixing であるという主張
例えばMLP なら, 全結合によってごちゃごちゃになる
Attentionではなく, Poolingでもいいんじゃね?
→ PoolFormer
@sei_shinagawa MetaFormerの論文でも表6のAblation studyで後半はattentionが強いと示されてるので、「前半はCNN的な構造が良くて後半はAttentionが良い」の焼き直しかと。全部poolingしたら仰る通りもうただのCNNですね 結局は前半CNN後半Attentionの焼き直しとも捉えられるっぽい?
@sei_shinagawa 画像認識だと、よく訓練されたViTは前半の層で局所特徴も学習するように学習が進んでるので、それなら最初からCNNにした方がサンプル効率が良いという話が多いです。ただ、早期から大域的にみることを否定するものではないです。大規模なモデルだと、ViTが敵対的攻撃に頑健という話があったりします Patches Are All You Need? という論文もあるらしい