Pix2seq
入力 : 画像
出力 : $ (y_{\text{min}},x_{\text{min}},y_{\text{max}},x_{\text{max}},c)
$ \text{maximize}\sum_{j=1}^{L}\bm{w}_{j}\log P(\tilde{\bm{y}}_{j}|{\bm{x}},{\bm {y}}_{1:j-1})~{},
https://gyazo.com/0168559f2be4e44975551c3b759ece59
https://gyazo.com/e17c681b2bc06a6abc507913a0d19a2b