Transformer
https://data-analytics.fun/wp-content/uploads/2020/03/Transformer.png
再帰ニューラルネットワークを使わずに、Attentionメカニズムを使って並列計算を可能にするモデル
機械翻訳のために開発された
Attentionメカニズムは、長期の依存関係をとらえるメカニズム
RNNの問題点として、計算時間が長くなる
時系列に沿って前から順番に計算する必要があるから
だから、RNN使わずに、Attention機構だけでよくねってのが
Attention is all you need
ニューラル機械翻訳では、
インプットの単語をベクトルにして
それを別の言語の単語にアウトプットする
Transformer はself-Attentionを使う
それは、自分自身の文章のどこが重要かを学習する仕組み
Positional Encoding
単語の位置を考慮したベクトルを作る
単語をベクトルにする
位置関係を考慮したエンコーディングをする
Add&Norm
残差結合と正規化層
Attentionメカニズムの効果が悪ければ打ち消す役目
処理前のベクトルとAttention処理後のベクトルを足し合わせる。
レイヤー正規化
バッチ正規化の改良版
Transformer
RNNが使われていない。Self Attentionという仕組みを持ち「ある単語が、文章中のどの単語と結びつきが強いのか」を明らかにするため、文脈判断の精度が向上する。