Transformer
Attention
をベースにした、あるシーケンスから別のシーケンスを予測するモデル
EncoderとDecoderに分かれる
Encoder: 複数の
Self-Attention
とFFNの層
入力: Embeddingされた文章等のベクトル
出力: Decoderの
Sourse-Target-Attention
に入力されるベクトル
Decoder: 複数の
Self-Attention
と
Sourse-Target-Attention
とFNNの層
入力: 時刻0からtまでの翻訳後の文章等の確率ベクトル?
出力: 時刻1からt+1までの翻訳後の文章等の確率ベクトル?
様々な正規化を適用
Residual Nomalization
Layer Nomalization
その他
Positional Encoding(位置エンコーディング)
/nishio/位置エンコーディング
Multi-head Attention
一つの大きな
Attention
ではなく、複数の
Attention
を組み合わせた