アテンション
GPT-4.iconアテンション(attention)とは、人間がある特定の事象や情報に焦点を当て、その他の事象や情報を無視する心理的プロセスを指します。一般的に、私たちの意識は限られたリソースであり、すべての情報に同時に注意を払うことはできません。そのため、私たちの脳は、瞬間的に重要と判断される情報に焦点を当てることで、情報過多の状況に対処します。 機械学習の文脈:
注意Aはクエリq、キーk、バリューvを用いて以下のように定義される
$ A(Q, K, V) = \mathrm{softmax}(QK^T)V
加算注意と内積注意
理論的には複雑度は同じぐらいだが、内積注意は行列積で計算できるので実用上高速
キーの次元dkを使ってスケール調整をすると性能が良いという主張
$ A(Q, K, V) = \mathrm{softmax}({QK^T \over \sqrt{d_k}})V