Compressive Transformers for Long-Range Sequence Modelling
Transformer
で長距離の
過去
を記憶するには容量と計算量(対象
系列長
の二乗)が問題となる。過去の
系列
を
畳み込み
などで短い系列に
圧縮
、
注意
機構で読み出した時の復元損失で圧縮は学習する。
言語モデル
の
SOTA
を更新。著作権が切れた3万冊弱の本から作った
コーパス
PG-19
も提案
https://t.co/huSfM1bfGQ
https://twitter.com/hillbig/status/1179515933582188544?s=19
Compressive Transformer
s for Long-Range
Sequence
Modelling
Anonymous
26 Sep 2019 (modified: 26 Sep 2019)
ICLR
2020 Conference