PreNormとPostNorm
PreNormとPostNorm
Learning Deep Transformer Models for Machine Translation
Transformers without Tears
https://gyazo.com/fbe9dca5e9f717ffd81e5b24fcdfbe72
On Layer Normalization in the Transformer Architecture
BERT PreNorm で検索して見つけたが、関係ある?
TransformerにおいてLayer NormalizationはResidual BlockのMulti-Head Attentionの直前に適用する(Pre-LN)と学習が大きく安定化しwarm-upが必要なくなり学習率を大きくできる。
まさに、PreNormだと良いっすよってことを言ってる