Transformer - .｡oO(さっちゃんですよヾ(〃l

Transformer

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin "Attention is All You Need" 2017/6/12

perceptron

パーセプトロン - Wikipedia

多層パーセプトロン - Wikipedia

neuron

Hebb 則

neural network (人工神經網)

ニューラルネットワーク - Wikipedia

人工神経 - Wikipedia

$ y=\varphi\left(\sum_{i=1}^m w_i x_i+b\right)

入力$ x_1,\dots,x_m

重み附け$ w_1,\dots,x_m

bias 項$ b

出力$ y

活性化函數$ \varphi

活性化函數 (activation function。傳達函數 (transfer function))

活性化関数 - Wikipedia

非線形函數でないと多層にする價値が無い

ReLU 函數$ x_+

形式ニューロン - Wikipedia

$ y=H\left(\sum_{i=1}^m w_i x_i-h\right)

Heaviside の階段函數$ H

閾値$ h

閾値 - 脳科学辞典

普遍近似定理 (universal approximation theorem)

順傳播型 neural network (FFN) (feed-forward neural network)

ニューラルネットワーク - Wikipedia#順伝播型ニューラルネットワーク

囘歸型 neural network (RNN) (recurrent neural network)

回帰型ニューラルネットワーク - Wikipedia

長・短期記憶 (LSTM) (long short-term memory)

長・短期記憶 - Wikipedia

gate 附き囘歸型 unit (GRU) (gated recurrent unit)

ゲート付き回帰型ユニット - Wikipedia

疊み込み neural network (CNN) (convolutional neural network)

畳み込みニューラルネットワーク - Wikipedia

ボルツマンマシン - Wikipedia

ベイジアンネットワーク - Wikipedia

オートエンコーダ - Wikipedia

変分オートエンコーダー - Wikipedia

埋め込み (embedding)

埋め込み層 (Embedding Layer) ［自然言語処理の文脈で］ | CVMLエキスパートガイド

単語の埋め込み - Wikipedia

word2vec

word2vec (単語埋め込み) | CVMLエキスパートガイド

Word2vec - Wikipedia

seq2seq (系列變換 model)

seq2seq (sequence-to-sequence) ［機械翻訳］ | CVMLエキスパートガイド

Seq2seq - Wikipedia

encoder-decoder

Encoder-Decoder ネットワーク［ディープラーニングの文脈で］ – CVMLエキスパートガイド

注意機構 (attention mechanism)

アテンション (機械学習) - Wikipedia

系列変換モデルとアテンション機構［seq2seq から Transformer まで］ | CVMLエキスパートガイド

seq2seq with attention | CVMLエキスパートガイド

自己注意 (self-attention)

multi-head 注意 (multi-head attention)

マルチヘッドアテンション (Multi-head Attention) ［Transformerの部品］ | CVMLエキスパートガイド

位置符号化 (Positional Encoding) ［Transformerの部品］ | CVMLエキスパートガイド

Vision Transformer (ViT)

擴散 Transformer (DiT) (Diffusion Transformers)