Reformer - 🍊miyamonz🍊

Reformer

✔️Attentionの計算量をO(n^2)からO(n log n)へと劇的に削減

✔️アクティベーションなどのメモリ使用量を大幅に削減

✔️速度・メモリ共に実装効率を大きく改善しながらも、Transformerの性能を維持

長文を入力できるようになった、と考えれば良さそうだが、いままでのBERTの幅くらいで間に合っていたタスクで使うメリットはあるかな？

そもそも長文を分割して学習に回してたのを、１記事ごとにそのまま読み込んで学習できるようになったが、それはどういう違いを表すのだろう？

文章中の遠く離れた単語も考慮できる？