Transformer
Attention mechanism 注意機構 のみに基づいた、新しいシンプルなencoder decoder型のネットワークアーキテクチャ コレ自体もすごいのだが、Encoder部分がBERTで利用されていることでも有名 理解するための資料
Illustrated Transformer
イラスト付きだが、annotatedのほうが分かりやすい気もする
GLASS BOXによる解説
入力部分が他より詳しい気がする
Annotated Transofromerではどう書かれているか適宜捕捉してくれて良い
The Transformer uses a random initialization of the weight matrix and refines these weights during training – i.e. it learns its own word embeddings.
Transformerへの単語の入力はone-hot表現で行われる
Input Embeddingのところでword embeddingと同種の役割が行われる
すなわちここもTransformerの重みとして学習されて更新される
https://gyazo.com/40228c6d0098856c22bf276adc939530
encoderやdecoderはそれぞれ同じ6層が積み重なっているが、これはCNN等でやっているのと似たようなものと思えばいい
ただし、CNNは1層あたりで周囲の画素しか接続されないが、Attentionなら全体から接続を構築できる
積み重ねることで、なんらかの抽象的(あるいは単に複雑な)な学習ができているのだろうと思える
日本語
日本語による論文解説
全体図がわかりやすい