Cross-attention
説明を探す
異なる入力行列$ X,Yから、$ Q=XW_Q,K=YW_K,V=YW_Vとして用意する。これは、XXが異なる情報源YYから情報を抽出する処理として解釈できる。
Pytorchに実装があるみたい
Attentionについて参考になりそうなリソース
海外の講義資料に説明が載っている
結局,特徴量の結合をどう行うかは報告書を見る他ないか?
$ InputC = softmax ((W_QF_B ) (W_K F_C )) W_V F_C (1)
$ InputB = softmax ((W_QF_C ) (W_K F_B )) W_V F_B(2)
Q,K,VはQuery, Key, Valueのことと思われる
$ F_B,F_Cはそれぞれの中間特徴量のこと
やることは
ベースラインから埋め込みの計算をCNN,BEATsが同時に進めるように変更
式の通りにする
Q,K,Vの行列を取得
sofxmaxに入れる
次の層に入力として与える
Cross-attentionを使うと冒頭には書いてあるが,どう使うのか?
? 上の式自体をCross-attentionで行える? 報告書の該当部分をGPTに渡したが,これ以上の情報はなさそう
その後Pytorchの資料も見て判断する