Attention
https://scrapbox.io/files/658504d3234c740023f73d29.png
そして、Attention機構は「文章内のどの単語に注意を払うべきか」という点に着目し、各単語に重み付をするような処理を行い、各単語間の関係性や文脈の特徴を表す機構として、RNNの補助的な役割として、RNNと併用する形で実装されました。
ただ、LSTM、Attentionともに、RNNがベースになっています。RNNを使っている限り、並列処理ができない ⇒ なので大規模データの学習ができない ⇒ なのでモデルの精度があがらないという状況は変わりません。
そこで、思い切ってRNNはあきらめ、もともと補助的に組み込まれていたAttentionを、文脈把握と単語間の関係性把握のためのメインの機構としてフル活用することにより、RNNの大きな課題であった並列処理と長期記憶の問題を解決したTransformerが開発されました。
Attention
Seq2Seqの問題点は最終内部情報を1つに圧縮することによるエンコーダーとデコーダーの間に情報のボトルネックが生じてしまう。そこで単語系列を入力し終えていない内部情報も入力する方法がAttention機構