トランスフォーマー
Attention is All You Needed
論文
ニューラルネットワークのどこにアテンションを当てるか
マルチヘッドのセルフアテンションを多層に重ねた