Transformer
Attentionをベースにした、あるシーケンスから別のシーケンスを予測するモデル
EncoderとDecoderに分かれる
Encoder: 複数のSelf-AttentionとFFNの層
入力: Embeddingされた文章等のベクトル
出力: DecoderのSourse-Target-Attentionに入力されるベクトル
Decoder: 複数のSelf-AttentionとSourse-Target-AttentionとFNNの層
入力: 時刻0からtまでの翻訳後の文章等の確率ベクトル?
出力: 時刻1からt+1までの翻訳後の文章等の確率ベクトル?
様々な正規化を適用
Residual Nomalization
Layer Nomalization
その他
Positional Encoding(位置エンコーディング)
/nishio/位置エンコーディング
Multi-head Attention
一つの大きなAttentionではなく、複数のAttentionを組み合わせた