Attention is all you need
1枚まとめ
どんなもの?
#NIPS
#2017
CNNやRNNを用いず、Attentionのみを用いたシーケンスから別のシーケンスを予測するモデルTransformerを提案
言語翻訳のタスクにおいて、SOTAな精度を達成
先行研究と比べてどこがすごい?
CNNやRNNを用いていない
SOTAな精度
学習が早い
技術や手法のキモはどこ?
Attentionをベースにしたモデル。
RNNに比べて非常に学習が早い。
RNNは時刻tの計算が終わるまで時刻t+1の計算をできない?
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
リンク
https://arxiv.org/abs/1706.03762
https://qiita.com/halhorn/items/c91497522be27bde17ce
http://deeplearning.hatenablog.com/entry/transformer
https://jalammar.github.io/illustrated-transformer/
#survey