PreNormとPostNorm

PreNormとPostNorm

Learning Deep Transformer Models for Machine Translation

Transformers without Tears

https://gyazo.com/fbe9dca5e9f717ffd81e5b24fcdfbe72

On Layer Normalization in the Transformer Architecture

BERT PreNorm　で検索して見つけたが、関係ある？

TransformerにおいてLayer NormalizationはResidual BlockのMulti-Head Attentionの直前に適用する（Pre-LN）と学習が大きく安定化しwarm-upが必要なくなり学習率を大きくできる。

まさに、PreNormだと良いっすよってことを言ってる