BERTとTransformerの違い
https://gyazo.com/864261a03ba6810114fabd6b651fdccc
まず、Encoder-Decoder構造のEncoder部分をそのまま使っている、という前提に注意
みんな知ってて当たり前という感じで殆ど説明されてない
BERTの公式およびそれに合わせたtransformersの実装は、上の図のように
レイヤーあたり
BertAttention
BertIntermediate
BertOutput
というまとまりになっているが、これは区分が違うだけで、
Transformer encoderの
サブレイヤー
multi head attention
dense
サブレイヤーごとに、dropoutをまぜつつ、残差接続とpost-norm
というのは同じ。よく確認せよ
さらに、activation 関数がgeluになってる
論文にはモデル構造について詳しく書かれていなかったが、たしかに詳しく書くほど構造の違いがない