Transformer
今の理解
自己注意機構, Self-Attentionで関係性を得る
Feed-Forwardは関係性を深める?
何らかの入力をモデルが扱えるように埋め込む > ベクトル化
n次元の空間が出来上がる
ベクトル化されたデータの位置情報も把握する
Attentionでベクトルを扱う時,列ごとに分割などして並行して処理する
その時に位置情報が失われるので,事前に確保しておく?
果たして今の理解が正しいのか謎
今読んでいる記事 > https://aws.amazon.com/jp/what-is/transformers-in-artificial-intelligence/
後で論文を読みに行く
Attention Is All You Need, https://arxiv.org/pdf/1706.03762
解説記事: https://cvml-expertguide.net/2021/12/21/transformer/