未来のLLMアーキテクチャ
【Mamba入門】Transformerを凌駕しうるアーキテクチャを解説(独自の学習・推論コード含む)
RetNet論文まとめ
RWKV
Hyena: 次世代LLMへ向けたTransformerを越える新機械学習モデル
【論文メモ】Hungry Hungry Hippos: Towards Language Modeling with State Space Models
xLSTM: Extended Long Short-Term Memory
PKSHAがマイクロソフトの新方式採用のLLM、従来の約3倍に高速化
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
チュートリアル:Mamba, Vision Mamba (Vim)
Model Card for Zamba2-7B