SwinTransformer
認識する対象は画像中で様々な大きさを取る → パッチは対象物体をぶつ切りにする可能性があるのでまずい
画像の解像度が高くなると計算量が膨大になる
SwinTransformerの解決策
pooling-likeに, 画像の縦横を小さくしていく
局所的なattentionを取る
Swin Transformer Block
違うのはShifted Window-based Multi-head Self-attention
特徴マップをウィンドウで区切って, ウィンドウ内のみでself-attention
hw個のパッチに対する計算量がO(h^2w^2) -> O(M^2M^2 * h/M * w/M) = O(M^2hw)に
考: これって大局的な注目を断ち切ってるだけならCNNっぽくやろうぜってことになるのかな
Transformerの計算効率化を行うためにウィンドウで区切るという手法を提案していましたが、これにより部分的にはCNNに近くなり、1回のブロック中では局所的な情報しか見れなくなっています。受容野の広さと計算効率にはトレードオフがあり、さらにネットワークの深さとの兼ね合いもあるので、今後も様々な提案がなされていくのだと思います。
↑ ということなので多分そういうことっぽい
https://gyazo.com/a0be3a93c3bce14cdd9381b7f7fcfa3c