Transformer
neuron
$ y=\varphi\left(\sum_{i=1}^m w_i x_i+b\right)
入力$ x_1,\dots,x_m
重み附け$ w_1,\dots,x_m
bias 項$ b
出力$ y
活性化函數$ \varphi
活性化函數 (activation function。傳達函數 (transfer function))
非線形函數でないと多層にする價値が無い
$ y=H\left(\sum_{i=1}^m w_i x_i-h\right)
閾値$ h
埋め込み (embedding)
word2vec
seq2seq (系列變換 model)
encoder-decoder
注意機構 (attention mechanism)
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin "Attention is All You Need" 2017/6/12
現在主流の系列變換 model は、encoder・decoder 構成における複雜な再歸型 neural network または疊み込み neural network を基盤としてゐる。特に性能の高い model では、encoder と decoder 閒に注意機構を導入することで性能を向上させてゐる。本硏究では、注意機構のみに基づく新たな簡素な network architecture「Transformer」を提案する。この model では、再歸處理や疊み込み處理を完全に排除してゐる。2 種類の機械飜譯 task における實驗結果から、これらの model が品質面で優れてゐるだけでなく、竝列處理性に優れ、學習時閒も大幅に短縮可能であることが明らかとなった。本 model は WMT 2014 英語-ドイツ語飜譯 task において 28.4 BLEU score を達成し、ensemble 手法を含む既存の最高記錄を 2 BLEU point 以上上囘る性能を示した。WMT 2014 英語-フランス語飜譯 task においては、8 臺の GPU を用ゐて 3.5 日閒の學習を行った結果、單一 model としての最先端性能となる 41.8 BLEU score を達成し、文獻中の最高性能 model と比較して學習 cost を大幅に削減した。さらに、Transformer が他の task にも良好に一般化することを、大規模 dataset と限定 dataset の兩方を用ゐた英語構文解析 task への適用によって實證した。 briefing 資料:Attention Is All You Need
要旨
1. 品質の向上 : WMT 2014 の英語-ドイツ語飜譯 task で、既存の ensemble model を含む最高記錄を 2.0 BLEU 以上上囘る 28.4 BLEU という新たな最高 score を樹立した。英語-フランス語飜譯 task においても、單一 model として 41.8 BLEU という新たな最高水準を達成した。
2. training 效率の大幅な向上 : 囘歸型 neural network (RNN)の逐次的な計算という制約を排除したことで、竝列化が大幅に進んだ。これにより、從來の最高性能 model と比較して、training に要する時閒が劇的に短縮された (例へば、8 基の P100 GPU で 3.5 日)。 3. 優れた汎用性 : 機械飜譯だけでなく、英文構文解析のような構造的制約が強い task にも應用され、task 特有の tuning をほとんど行はずに、既存の高性能 model に匹敵する、あるいはそれを上囘る結果を示した。
この architecture は、自己注意 (self-attention) と multi-head 注意 (multi-head attention) を中核技術とし、入力と出力 sequence 閒の大域的な依存關係を效率的に捉へる。Transformer の登場は、自然言語處理分野における model architecture の paradigm shift を促し、その後の多くの最先端 model の基礎となってゐる。 1. 背景:従来の配列変換モデルの課題
Transformerは、再帰や畳み込みを完全に排除し、アテンションメカニズムのみに基づいて入力と出力間の大域的な依存関係を捉える、初のシーケンス変換モデルである。 2.1. 基本構造:エンコーダ・デコーダ
Transformerは、多くのニューラルシーケンス変換モデルと同様に、エンコーダ・デコーダ構造を踏襲している。 エンコーダ: 入力シーケンス (x₁, ..., xₙ) を、連続的な表現のシーケンス z = (z₁, ..., zₙ) にマッピングする。エンコーダは、同一の構造を持つN=6層のスタックで構成される。各層は2つのサブレイヤー(マルチヘッド自己アテンション、位置単位の全結合フィードフォワードネットワーク)を持つ。
デコーダ: エンコーダの出力 z を受け取り、出力シーケンス (y₁, ..., yₘ) を一度に1要素ずつ生成する。デコーダも同様にN=6層のスタックで構成される。各層は、エンコーダの2つのサブレイヤーに加えて、エンコーダスタックの出力に対してマルチヘッド・アテンションを実行する3番目のサブレイヤーを持つ。
各サブレイヤーの周りには残差接続(Residual Connection)が採用され、その後に層正規化(Layer Normalization)が続く。
2.2. 中核技術:アテンションメカニズム
スケール化ドット積アテンション (Scaled Dot-Product Attention)
機能: クエリ(Query)、キー(Key)、バリュー(Value)の3つのベクトルを入力とし、出力はバリューの重み付き和として計算される。各バリューに割り当てられる重みは、クエリと対応するキーの互換性関数によって計算される。
計算式: Attention(Q, K, V) = softmax( (Q * Kᵀ) / √dₖ ) * V
スケーリング: √dₖ でスケーリングする点が特徴である。キーの次元 dₖ が大きい場合、ドット積の値が大きくなりすぎ、softmax関数の勾配が極端に小さくなる問題が発生する。このスケーリングは、その影響を緩和し、学習を安定させるために行われる。
マルチヘッド・アテンション (Multi-Head Attention)
構造: クエリ、キー、バリューを、学習可能な異なる線形射影を用いて h 回(本論文ではh=8)にわたって dₖ, dₖ, dᵥ 次元の空間にそれぞれ射影する。これらの射影された各バージョンに対して並列にアテンション関数を実行し、得られた dᵥ 次元の出力値を連結して、再度線形射影することで最終的な出力を得る。
利点: この構造により、モデルは異なる位置の異なる表現部分空間からの情報に共同で注意を向けることが可能になる。単一のアテンションでは、平均化によってこの能力が阻害されてしまう。
1. エンコーダ-デコーダ・アテンション: クエリは前のデコーダ層から、キーとバリューはエンコーダの出力から来る。これにより、デコーダ内のすべての位置が入力シーケンスのすべての位置に注意を向けることができる。
2. エンコーダ自己アテンション: キー、バリュー、クエリのすべてがエンコーダ内の前の層の出力から来る。エンコーダ内の各位置が、前の層のすべての位置に注意を向けることができる。
3. マスク付きデコーダ自己アテンション: デコーダ内の各位置が、その位置までのすべての位置に注意を向けることを可能にする。自己回帰的な性質を維持するため、デコーダ内での左向きの情報流を防ぐマスキングが適用される(softmaxへの入力のうち、不正な接続に対応する値を-∞に設定)。
2.3. その他の構成要素
位置単位のフィードフォワードネットワーク (Position-wise Feed-Forward Networks): 各エンコーダ層とデコーダ層には、アテンション・サブレイヤーに加えて、全結合フィードフォワードネットワークが含まれる。これは各位置に個別かつ同一に適用される。
位置エンコーディング (Positional Encoding): モデルには再帰も畳み込みもないため、シーケンスの順序情報を利用するために、位置に関する情報を注入する必要がある。入力埋め込みに、異なる周波数のサイン関数とコサイン関数からなる「位置エンコーディング」が加算される。
3. 自己アテンションの優位性
レイヤータイプ 層ごとの計算量 逐次実行される演算の最小数 最大パス長
自己アテンション O(n² · d) O(1) O(1)
nはシーケンス長、dは表現の次元数、kは畳み込みのカーネルサイズ
長距離依存関係の学習: ネットワーク内での順方向および逆方向の信号が通過しなければならない経路の長さは、長距離依存関係の学習能力に影響を与える重要な要素である。自己アテンションでは、任意の2つの入出力位置間のパス長がO(1)と短いため、長距離依存関係の学習が容易になる。
解釈可能性: 副次的な利点として、自己アテンションはより解釈可能なモデルをもたらす可能性がある。アテンションの分布を可視化することで、個々のアテンションヘッドが文の構文的・意味的構造に関連する異なるタスクを学習している様子が観察された。
4. 実験結果と評価
4.1. 機械翻訳
Transformerは、2つの主要な機械翻訳タスクで、品質とトレーニングコストの両面で最先端の性能を示した。 モデル BLEU (EN-DE) BLEU (EN-FR) トレーニングコスト (FLOPs)
GNMT + RL Ensemble 26.30 41.16 1.8 · 10²⁰
ConvS2S Ensemble 26.36 41.29 7.7 · 10¹⁹
英語-ドイツ語翻訳 (WMT 2014): 大規模モデル(Transformer (big))はBLEUスコア28.4を達成し、これまでに報告された最高のモデル(アンサンブルを含む)を2.0 BLEU以上上回る新記録を樹立した。ベースモデルでさえ、すべての先行研究を上回った。 英語-フランス語翻訳 (WMT 2014): 大規模モデルはBLEUスコア41.8を達成し、従来の単一モデルの最高性能を上回った。その際のトレーニングコストは、以前の最先端モデルの4分の1未満であった。
4.2. モデルのバリエーション分析
Transformerの各コンポーネントの重要性を評価するために、ベースモデルに変更を加えて性能の変化を測定した。 アテンションヘッド数: ヘッド数が1の場合、性能が0.9 BLEU低下した。一方で、ヘッド数が多すぎる(32)場合も品質が低下し、8ヘッドが最適な設定であることが示された。
キーの次元 (dₖ): キーの次元を減らすとモデルの品質が損なわれた。これは、互換性の決定が容易ではなく、ドット積よりも洗練された互換性関数が有益である可能性を示唆している。
モデルサイズ: 予想通り、より大きなモデル(d_model, d_ffを増加)は性能が向上した。
正則化: ドロップアウトは過学習を避けるのに非常に有効であることが確認された。
4.3. 英文構文解析
Transformerが他のタスクに汎化できるかを評価するため、英文構文解析の実験が行われた。このタスクは出力が強い構造的制約を受け、入力より大幅に長くなるという特有の課題がある。 結果: タスク固有のチューニングがほとんどないにもかかわらず、モデルは驚くほど良好に機能し、Recurrent Neural Network Grammar を除くすべての先行研究よりも優れた結果を達成した。
5. 結論と將來の展望
本硏究は、encoder・decoder architecture で最も一般的に使用される再歸的な層を multi-head 自己注意に置き換へ、注意のみに基づいた初の sequence 變換 model である Transformer を提示した。 この model は、飜譯 task において、再歸的または疊み込み層に基づく architecture よりも大幅に高速に training でき、2 つの WMT task で新たな最高水準を達成した。
今後の展望として、以下の點が擧げられてゐる。
他の task への應用。
text 以外の modality (畫像、音聲、video) を扱ふ問題への擴張。
大規模な入出力を效率的に處理するための局所的・制限的注意機構の調査。
生成をより逐次的でなくすこと。