cosFormer - 🍣YuWd(和田唯我)のメモ🍣

cosFormer

ICLR 2022

$ Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}

expが括り出せれば, iとjとで分離できる

Attentionにおけるsoftmaxの重要な特性

1. Attention Matrix $ Aが非負であること

ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる

2. 非線形な重み付け

ReLUよりもsoftmaxのほうが関数近似の速度が速いので, softmaxのほうが良いらしい

上記の議論より, $ \phi(\cdot) に$ ReLUを採用 (上のやつの場合はELU)

cos-Baesd Re-weighting Mecnism

softmaxはattentionの分散を抑え (=attentionを集中させ), 局所性を高めると言われている

なので, 局所性を高めるような重み付けがあると良い

つまり, 距離に対して単調に減少するような重み付けを掛けてあげればよい

⇒ $ cos (\frac{\pi}{2} \times \frac{dist}{M}) = cos (\frac{\pi}{2} \times \frac{i-j}{M}) を重みにする