MetaFormer・PoolFormer

MetaFormer is Actually What You Need for Vision

MetaFormerはモデルを抽象化したもの

重要なのはToken mixing であるという主張

AttentionやMLP-mixerはtokenをごちゃまぜにしてる

例えばMLP なら, 全結合によってごちゃごちゃになる

Attentionではなく, Poolingでもいいんじゃね？

→ PoolFormer

https://twitter.com/sei_shinagawa/status/1472115254171947009

@sei_shinagawa MetaFormerの論文でも表6のAblation studyで後半はattentionが強いと示されてるので、「前半はCNN的な構造が良くて後半はAttentionが良い」の焼き直しかと。全部poolingしたら仰る通りもうただのCNNですね

結局は前半CNN後半Attentionの焼き直しとも捉えられるっぽい？

@sei_shinagawa 画像認識だと、よく訓練されたViTは前半の層で局所特徴も学習するように学習が進んでるので、それなら最初からCNNにした方がサンプル効率が良いという話が多いです。ただ、早期から大域的にみることを否定するものではないです。大規模なモデルだと、ViTが敵対的攻撃に頑健という話があったりします

Patches Are All You Need? という論文もあるらしい

https://openreview.net/forum?id=TVHS5Y4dNvM