Encoder-Docoder
Encoder-Decoderモデル、アーキテクチャなどと言われる
2014年のEncoder-Decoderの論文?
RNNおよびLSTM
https://arxiv.org/abs/1406.1078
https://arxiv.org/abs/1409.3215
これがsequence to sequenceを言っていて、[5]に上のやつを引用してる
自然言語処理のための深層学習に書いてあった
最も簡単なsequence to sequenceモデル
これ以外をmiyamonz.iconは知らんが
上記のようにRecurrent neural networkで有名だが
BERTおよびTransformerで、RNNを用いないEncoder-Decoderモデルが有名になった(2018)
元言語側と目的言語側の2本のRNN
encoder 入力単語の情報を蓄積
decoder 蓄積された情報を取り出しながら単語を生成
https://gyazo.com/d4a7e1fb6d478f03a9969d1f12729462
参考
https://satopirka.com/2018/02/encoder-decoderモデルとteacher-forcingscheduled-samplingprofessor-forcing/
https://towardsdatascience.com/understanding-encoder-decoder-sequence-to-sequence-model-679e04af4346
https://arxiv.org/abs/1904.02874
Attention modelのsurvey
しかし訓練時の動き方がよくわからん
https://machinelearningmastery.com/develop-encoder-decoder-model-sequence-sequence-prediction-keras/
英語、仏語翻訳のようなデータが有るときに、どうやって損失関数を定義するのだ?
CIS 530 Computational Linguistics Spring 2018 Sequence-to-sequence Models
これがイメージつかめるかも
翻訳の場合は、START SENTENCE トークンを送って文章を始める
翻訳じゃない、BERTのような問題はどうなるんだ?
ここ、バイディレクショナル関係あるよな