Reformer
https://ai.googleblog.com/2020/01/reformer-efficient-transformer.html
https://ai-scholar.tech/articles/treatise/reformer-ai-364
✔️Attentionの計算量をO(n^2)からO(n log n)へと劇的に削減
✔️アクティベーションなどのメモリ使用量を大幅に削減
✔️速度・メモリ共に実装効率を大きく改善しながらも、
Transformer
の性能を維持
長文を入力できるようになった、と考えれば良さそうだが、いままでのBERTの幅くらいで間に合っていたタスクで使うメリットはあるかな?
そもそも長文を分割して学習に回してたのを、1記事ごとにそのまま読み込んで学習できるようになったが、それはどういう違いを表すのだろう?
文章中の遠く離れた単語も考慮できる?