Compressive Transformers for Long-Range Sequence Modelling
Transformerで長距離の過去を記憶するには容量と計算量(対象系列長の二乗)が問題となる。過去の系列を畳み込みなどで短い系列に圧縮、注意機構で読み出した時の復元損失で圧縮は学習する。言語モデルのSOTAを更新。著作権が切れた3万冊弱の本から作ったコーパスPG-19も提案 https://t.co/huSfM1bfGQ
https://twitter.com/hillbig/status/1179515933582188544?s=19
Compressive Transformers for Long-Range Sequence Modelling
Anonymous
26 Sep 2019 (modified: 26 Sep 2019)ICLR 2020 Conference