FlashAttention
Flash Attentionは、長いSequenceでのTransformer学習ができるようにするという目的で提案された手法で、従来のAttention方法での以下のような問題を解決しようししています。
FlashAttention:IOを意識した高速でメモリ効率の良い厳密なアテンション
Tri Dao、Daniel Y. Fu、Stefano Ermon、Atri Rudra、Christopher Ré
FlashAttention is widely used to accelerate Transformers, already making attention 4-8x faster, but has yet to take advantage of modern GPUs. We’re releasing FlashAttention-3: 1.5-2x faster on FP16, up to 740 TFLOPS on H100 (75% util), and FP8 gets close to 1.2 PFLOPS!