PreNormとPostNorm
from BERTとTransformerの違い
PreNormとPostNorm
https://arxiv.org/abs/1906.01787
Learning Deep Transformer Models for Machine Translation
Transformers without Tears
https://tnq177.github.io/data/transformers_without_tears.pdf
https://gyazo.com/fbe9dca5e9f717ffd81e5b24fcdfbe72
https://arxiv.org/abs/2002.04745
On Layer Normalization in the Transformer Architecture
BERT PreNorm で検索して見つけたが、関係ある?
https://twitter.com/hillbig/status/1182438709095854080?s=19
TransformerにおいてLayer NormalizationはResidual BlockのMulti-Head Attentionの直前に適用する(Pre-LN)と学習が大きく安定化しwarm-upが必要なくなり学習率を大きくできる。
まさに、PreNormだと良いっすよってことを言ってる