Encoder-Docoder

Encoder-Decoderモデル、アーキテクチャなどと言われる

2014年のEncoder-Decoderの論文？

RNNおよびLSTM

これがsequence to sequenceを言っていて、[5]に上のやつを引用してる

最も簡単なsequence to sequenceモデル

これ以外をmiyamonz.iconは知らんが

上記のようにRecurrent neural networkで有名だが

BERTおよびTransformerで、RNNを用いないEncoder-Decoderモデルが有名になった（2018）

元言語側と目的言語側の２本のRNN

encoder 入力単語の情報を蓄積

decoder 蓄積された情報を取り出しながら単語を生成

https://gyazo.com/d4a7e1fb6d478f03a9969d1f12729462

参考

Attention modelのsurvey

しかし訓練時の動き方がよくわからん

英語、仏語翻訳のようなデータが有るときに、どうやって損失関数を定義するのだ？

これがイメージつかめるかも

翻訳の場合は、START SENTENCE トークンを送って文章を始める

翻訳じゃない、BERTのような問題はどうなるんだ？

ここ、バイディレクショナル関係あるよな