Transformer

https://data-analytics.fun/wp-content/uploads/2020/03/Transformer.png

再帰ニューラルネットワークを使わずに、Attentionメカニズムを使って並列計算を可能にするモデル

機械翻訳のために開発された

Attentionメカニズムは、長期の依存関係をとらえるメカニズム

RNNの問題点として、計算時間が長くなる

時系列に沿って前から順番に計算する必要があるから

だから、RNN使わずに、Attention機構だけでよくねってのが

Attention is all you need

ニューラル機械翻訳では、

インプットの単語をベクトルにして

それを別の言語の単語にアウトプットする

Transformer はself-Attentionを使う

それは、自分自身の文章のどこが重要かを学習する仕組み

Positional Encoding

単語の位置を考慮したベクトルを作る

単語をベクトルにする

位置関係を考慮したエンコーディングをする

Add＆Norm

残差結合と正規化層

Attentionメカニズムの効果が悪ければ打ち消す役目

処理前のベクトルとAttention処理後のベクトルを足し合わせる。

レイヤー正規化

バッチ正規化の改良版

Transformer

RNNが使われていない。Self Attentionという仕組みを持ち「ある単語が、文章中のどの単語と結びつきが強いのか」を明らかにするため、文脈判断の精度が向上する。