cosFormer
ICLR 2022
$ Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}
expが括り出せれば, iとjとで分離できる
1. Attention Matrix $ Aが非負であること
ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる 2. 非線形な重み付け
ReLUよりもsoftmaxのほうが関数近似の速度が速いので, softmaxのほうが良いらしい
上記の議論より, $ \phi(\cdot) に$ ReLUを採用 (上のやつの場合はELU) cos-Baesd Re-weighting Mecnism
softmaxはattentionの分散を抑え (=attentionを集中させ), 局所性を高めると言われている
なので, 局所性を高めるような重み付けがあると良い
つまり, 距離に対して単調に減少するような重み付けを掛けてあげればよい
⇒ $ cos (\frac{\pi}{2} \times \frac{dist}{M}) = cos (\frac{\pi}{2} \times \frac{i-j}{M}) を重みにする