On Layer Normalization in the Transformer Architecture
Transformer
において
Layer Normalization
は
Residual Block
の
Multi-Head Attention
の直前に適用する(
Pre-LN
)と学習が大きく安定化し
warm-up
が必要なくなり
学習率
を大きくできる。
https://t.co/VWMbmf3w3x
https://twitter.com/hillbig/status/1182438709095854080?s=19
#ICLR