Mamba
https://arxiv.org/abs/2312.00752
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
https://github.com/state-spaces/mamba
state-spaces/mamba
Self-Attention
メカニズム(
Transformer
)は入力の長さに対して二次元的にスケーリングする、や有限のウィンドウ外の情報をモデル化できないという欠点がある
それに対して出てきた
SSM
(
H3
とか
Hyena
)はシーケンスモデリングにおいて、線形時間の計算量で動作するという利点を持っている
しかし、入力の内容に基づいて情報を選択的に伝播する能力に欠ける
Mambaは、SSMのパラメータの一部を入力に依存する関数として定義することで、SSMの欠点を解決することを目指しています。
https://qiita.com/peony_snow/items/649ecb307cd3b5c10aa7
【Mamba】Transformerを凌駕しうる
アーキテクチャ
を徹底解説(ソースコードあり)
#Python
- Qiita