CNNと自己注意
固定長の入力しか受け取れなかったCNNが不定長の入力を受け取れる注意機構で置き換えられた なぜ不定長への拡張ができるのか?
CNNは、自分からの相対位置で、どの位置の値にどんな重みを掛けるかは行列の形でハードコードされていた
なので前後何個の値に対して処理をするかを事前に固定する必要があったhttps://gyazo.com/adfdef7c11d9c8c05bb40d3be79eefbd
注意機構では、どんな重みを掛けるかは、その値によって決まる
だから個数を事前に定める必要がない
https://gyazo.com/1902ffd4c16d50ff825b1b2573fdc97e
その代わり、単純な構成では位置の情報がないので入力列をシャッフルしても注意機構が返す値は同じ
入力値自体に位置の情報を埋め込んでしまう
これで注意機構がCNNの代わりを果たせるようになった