MLP-Mixer - 🍣YuWd(和田唯我)のメモ🍣

MLP-Mixer

https://gyazo.com/25e5c7b602fdad73d8720a6c105dcc7b

https://gyazo.com/041b3006998fc17ff72459ee5661dcdf

パッチとチャンネルの次元を入れ替えてMLPを行う

ViTっぽく画像を分割して入力

Attentionも畳み込みもない

1. 画像をP×Pのパッチに分割し、それぞれベクトルにEmbeddingする。

2. 1.で取得したベクトル達を複数回Mixer Layer(token-mixing + cnannel-mixing)で処理する。

3. MixerLayerで処理されたベクトルをクラス分類処理する。

Mixer Layer

空間方向にmix → チャネル方向にmix → ... って感じでごちゃまぜにする

ごちゃまぜ＝全結合

VisionTransformerの2/3のパラメータで同程度の精度が出る

学習時間・スループットに優位性がある

新たな帰納バイアスの可能性