MoSA - work4ai

MoSA

https://github.com/piotrpiekos/MoSA/raw/main/MoSA.png

各Attention headをExpertとし、Expert-Choice Routingに基づいて、top-k tokenを動的に選択します。これにより、従来のMoEにおける負荷分散の問題を本質的に解決します。

Self-AttentionでSparseするからSparce Attention

Iso-FLOP条件でPPLが最大27%改善

MoTはSparse AttentionをTransformer全体に拡張した設計？