Attention is all you need
1枚まとめ
どんなもの?
#NIPS
#2017
CNN
や
RNN
を用いず、
Attention
のみを用いたシーケンスから別のシーケンスを予測するモデル
Transformer
を提案
言語翻訳のタスクにおいて、
SOTA
な精度を達成
先行研究と比べてどこがすごい?
CNNやRNNを用いていない
SOTAな精度
学習が早い
技術や手法のキモはどこ?
Attention
をベースにしたモデル。
RNN
に比べて非常に学習が早い。
RNN
は時刻tの計算が終わるまで時刻t+1の計算をできない?
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
リンク
https://arxiv.org/abs/1706.03762
https://qiita.com/halhorn/items/c91497522be27bde17ce
http://deeplearning.hatenablog.com/entry/transformer
https://jalammar.github.io/illustrated-transformer/
#survey