RNNとLSTM
循環構造、NPL、2014cho:GRU
勾配消失、計算コスト、解釈性の低さ
Transformer:アテンションメカニズム
勾配クリッピング、
ハイパーパラメータ:学習率、バッチサイズ、隠れ層のサイズ、エポック数:グリッドサーチ、ランダムサーチ、ベイズ最適化
正則化:過学習の抑制、L1正則化、L2正則化、ドロップアウト:汎化能力の向上
前処理:
テキスト:トークン化、単語の埋め込み(Word embedding)
時系列:正規化、データのスケーリング
時系列データのウインドウ化
RNNとLSTMを図とコードで解説
CNN variants : DCGAN
RNN variants : Highway Networks
Autoencorder variants: Stacked Denoising Autoencoders, ladder networks, Residual Networks(ResNet) 劣化(Degradation Problem):深いDNNにおいて過適応と関係なく制度が飽和すること
残余関数(Residual Function)、深いネットは勾配消失起きやすいのでCNNでは正規化層で対応、ResNetは前の層の残余を利用
CNNの概歴:Yann LeCun、
RNNの概歴:1980年代、ホップフィールドネットワーク、1997LSTMSepp Hochreite and Sepp Hochreite
BiRNN
NETtalk、単純再帰型NN(SRN:Simple Recurrent Neural networks):
Jordan ネットは出力層の情報を用いるため 運動制御
Elan ネットは内部状態を利用するため 言語処理
SRN とは時間方向に展開したディープラーニングである
RNNを改善するモデル
BiRNN(双方向 bidirectiona RNN )
LSTM
長距離依存、長-短期記憶
keras
エルマンネット、ジョーダンネット、勾配消失問題、勾配爆発問題、
LSTM、双方向LSTM、ゲート付きLSTM、
BPTT法 / RTRL法 / CTC / Bi-directional RNN 時系列データ、セル、
シーケンス(系列データ)モデル/ one to one / one to many / many to one / many to many (遅延モデル / 同期モデル)
リカレントエッジ、閉路、コンテキスト / LSTM Block / 短期依存、
LSTM, GRU, 双方向RNN / RNN言語モデル / 系列変換HMHモデル(seq2seq with attention)、順伝搬NN(FFNN)、HMM(Hidden Markov Model)、CRF(Conditional Random Field:条件付き確率場)
潜在状態(Hidden state)ベクトル
自然言語処理(NLP)、 時間方向逆伝搬、Gated-RNN、双方向RNN、複数階層化
勾配消失問題、記憶セル、忘却ゲート、入力ゲート、出力ゲート
Gated Recurrent Unit、RNN Language Model,
時系列と可変長、通時的誤差逆伝搬(Back propagation Through time)
感情分析、機械翻訳、NLP(自然言語処理)、テキスト分析、画像/動画分析、機械翻訳、音声認識、テキスト分析、チャットボット、パーソナルアシスタント
打ち切り型通時的逆伝搬:(Truncated Back propagation Through time)
長・短期記憶ユニット:LSTM(Long Short-Time Memory)
LSTM : ゲート(Input / Forget, output)
LSTM