MoSA
https://github.com/piotrpiekos/MoSA/raw/main/MoSA.png
https://github.com/piotrpiekos/MoSApiotrpiekos/MoSA
https://arxiv.org/pdf/2505.00315
各Attention headをExpertとし、Expert-Choice Routingに基づいて、top-k tokenを動的に選択します。これにより、従来のMoEにおける負荷分散の問題を本質的に解決します。
Self-AttentionでSparseするからSparce Attention
Iso-FLOP条件でPPLが最大27%改善
MoTはSparse AttentionをTransformer全体に拡張した設計?
ChatGPT.icon上記図の説明