Mamba
https://www.youtube.com/watch?v=_76IhEwT5DU
アテンションは単語N個あったらN-1個との関係性計算しなきゃいけず大変
GPT-4、例えば32kみたいな話。Claudeだと100kみたいな
N^2のオーダーをどんどん小さくするTransformerの話はこれまでにもあった。が、抜本的にアーキテクチャが変わってるのがMambaくん
N^2が必要って、それ過去に喋ったこと一言一句全部覚えておくの手間じゃない?
前にいったこと忘れて良いのでは?ということで状態空間モデルを導入
状態空間モデルは昔からある。カルマンフィルタ。アポロの月着陸に貢献
隠れマルコフモデルとかも。カーツワイル
現在の隠れ状態は過去の状態に影響される
飛行機には座標とか12の状態がある。この状態がそれぞれ遷移する
選択的状態モデルがMamba
GPUには早いモデルと遅いモデルがある。そのGPUのハードをフルに利用するアルゴリズムになっている
研究結果:2Bくらい?だとTransformerより5倍くらい。それ以上は試せてない
TransformerはGoogleが特許を持ってる!なのでほかのところにはりたい事情とかもありそう?