MLP-Mixer
https://gyazo.com/25e5c7b602fdad73d8720a6c105dcc7b
https://gyazo.com/041b3006998fc17ff72459ee5661dcdf
パッチとチャンネルの次元を入れ替えてMLPを行う
ViTっぽく画像を分割して入力
Attentionも畳み込みもない
1. 画像をP×Pのパッチに分割し、それぞれベクトルにEmbeddingする。
2. 1.で取得したベクトル達を複数回Mixer Layer(token-mixing + cnannel-mixing)で処理する。
3. MixerLayerで処理されたベクトルをクラス分類処理する。
Mixer Layer
空間方向にmix → チャネル方向にmix → ... って感じでごちゃまぜにする
ごちゃまぜ=全結合
VisionTransformerの2/3のパラメータで同程度の精度が出る
学習時間・スループットに優位性がある