Encoder-Docoder
Encoder-Decoderモデル、アーキテクチャなどと言われる
2014年のEncoder-Decoderの論文?
これ以外をmiyamonz.iconは知らんが
元言語側と目的言語側の2本のRNN
encoder 入力単語の情報を蓄積
decoder 蓄積された情報を取り出しながら単語を生成
https://gyazo.com/d4a7e1fb6d478f03a9969d1f12729462
参考
Attention modelのsurvey
しかし訓練時の動き方がよくわからん
英語、仏語翻訳のようなデータが有るときに、どうやって損失関数を定義するのだ?
これがイメージつかめるかも
翻訳の場合は、START SENTENCE トークンを送って文章を始める
翻訳じゃない、BERTのような問題はどうなるんだ?
ここ、バイディレクショナル関係あるよな