Attention
残差接続があるので,$ f(q) = q + \mathrm{softmax}(\frac{QK^\top}{\sqrt{d}})V の形になる 突っ切るのはクエリ$ q である点に注意
@izumisatoshi05
Stable DiffusionのCross Attentionで,なぜKeyとValueにテキスト埋め込みを入力して,Queryに潜在表現を入力するのか納得できない
直感的にはQueryに入力するテキスト埋め込みに応じてKeyとValueに入ってくる潜在表現の注目度を決めるというほうが,「テキストによる条件付け」というイメージに近いけど?
Seitaro Shinagawa
こんにちは、いつもツイート楽しく拝見させていただいてます。潜在表現に役立つ情報をテキスト埋め込みから引っ張ってきてる、とイメージするとしっくりくるかもしれません。Cross Attention自体はテキストによる条件付けではなく、条件付けに適した特徴をテキスト埋め込みから抽出する機構です
https://gyazo.com/1444b2774eea59a57f2c006be227cbec
https://gyazo.com/8ce598bdfe23591c797748cc5f38878e
https://gyazo.com/d76923a0cf93b71454b1de2cb74c0a16
Attentionは2つに大別される
Self-Attention
SourceTarget-Attention
https://gyazo.com/a840a7d60a3a7d2b9f7b3a52a129feaf
https://gyazo.com/b4a1e3fda9eeaa91457a22dee71275f2
https://gyazo.com/d82fc5017d11ac053e2fbbd24b29306e
https://gyazo.com/4af8a69c66f53ecf8826c96c72be9cae
https://gyazo.com/3a8f1ce5b8df5848c8dac021f2056248