Transformer - Research-Public

Transformer

Attentionをベースにした、あるシーケンスから別のシーケンスを予測するモデル

EncoderとDecoderに分かれる

Encoder: 複数のSelf-AttentionとFFNの層

入力: Embeddingされた文章等のベクトル

出力: DecoderのSourse-Target-Attentionに入力されるベクトル

入力: 時刻0からtまでの翻訳後の文章等の確率ベクトル？

出力: 時刻1からt+1までの翻訳後の文章等の確率ベクトル？

様々な正規化を適用

Residual Nomalization

Layer Nomalization

その他

Positional Encoding(位置エンコーディング)

Multi-head Attention

一つの大きなAttentionではなく、複数のAttentionを組み合わせた