Attention is all you need - Research-Public

Attention is all you need

1枚まとめ

どんなもの？

CNNやRNNを用いず、Attentionのみを用いたシーケンスから別のシーケンスを予測するモデルTransformerを提案

言語翻訳のタスクにおいて、SOTAな精度を達成

先行研究と比べてどこがすごい？

CNNやRNNを用いていない

SOTAな精度

学習が早い

技術や手法のキモはどこ？

Attentionをベースにしたモデル。

RNNに比べて非常に学習が早い。

RNNは時刻tの計算が終わるまで時刻t+1の計算をできない？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

リンク

https://arxiv.org/abs/1706.03762

https://qiita.com/halhorn/items/c91497522be27bde17ce

http://deeplearning.hatenablog.com/entry/transformer

https://jalammar.github.io/illustrated-transformer/