Transformer
Attention Is All You Need
https://arxiv.org/abs/1706.03762
Attention mechanism 注意機構 のみに基づいた、新しいシンプルなencoder decoder型のネットワークアーキテクチャ
コレ自体もすごいのだが、Encoder部分がBERTで利用されていることでも有名
理解するための資料
Annotated Transformer
Illustrated Transformer
http://jalammar.github.io/illustrated-transformer/
イラスト付きだが、annotatedのほうが分かりやすい気もする
GLASS BOXによる解説
https://glassboxmedicine.com/2019/08/15/the-transformer-attention-is-all-you-need/
入力部分が他より詳しい気がする
Annotated Transofromerではどう書かれているか適宜捕捉してくれて良い
The Transformer uses a random initialization of the weight matrix and refines these weights during training – i.e. it learns its own word embeddings.
Transformerへの単語の入力はone-hot表現で行われる
Input Embeddingのところでword embeddingと同種の役割が行われる
すなわちここもTransformerの重みとして学習されて更新される
Positional Encodingsはinput embeddingと足し算される、同じ次元のベクトル
https://gyazo.com/40228c6d0098856c22bf276adc939530
encoderやdecoderはそれぞれ同じ6層が積み重なっているが、これはCNN等でやっているのと似たようなものと思えばいい
ただし、CNNは1層あたりで周囲の画素しか接続されないが、Attentionなら全体から接続を構築できる
積み重ねることで、なんらかの抽象的(あるいは単に複雑な)な学習ができているのだろうと思える
Attention
日本語
http://deeplearning.hatenablog.com/entry/transformer
日本語による論文解説
Attentionについて理解した後に読むとわかりやすい
作って理解するTransformer/Attention - Qiita
https://qiita.com/FuwaraMiyasaki/items/239f3528053889847825
全体図がわかりやすい