PVT
#paper
Pyramid Vision Transformer
PVT v2では
Positional Encoding
が存在しない
https://twitter.com/yu4u/status/1522360958228000769
FFNにzero padding付きのdepthwise convを入れることで位置情報をencodeさせて,
Positional Encoding
を置換
zero paddingに重要性がある →
How Much Position Information Do Convolutional Neural Networks Encode?
https://gyazo.com/0c01244dcdfb93a5f57a5e7f2d9e14aa