Self-Attention
入力あるいは出力系統内でのAttentionを指す.
一度に全ての単語間との関係を計算するため並列計算が可能.
ただし語順の情報が失われてしまう.
単語の出現位置を入力に付加する位置エンコーディングによって回避している
TransformerではSelf-Attentionで構成されたエンコーダとデコーダをSource-Target Attentionで橋渡ししている.