未来のLLMアーキテクチャ

【Mamba入門】Transformerを凌駕しうるアーキテクチャを解説（独自の学習・推論コード含む）

RetNet論文まとめ

RWKV

Hyena: 次世代LLMへ向けたTransformerを越える新機械学習モデル

【論文メモ】Hungry Hungry Hippos: Towards Language Modeling with State Space Models

xLSTM: Extended Long Short-Term Memory

PKSHAがマイクロソフトの新方式採用のLLM、従来の約3倍に高速化

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

チュートリアル：Mamba, Vision Mamba (Vim)

Model Card for Zamba2-7B

2024 in Post-Transformers Architectures (State Space Models, RWKV) LS Live @ NeurIPS