Zamba2-7B
Zamba2-7Bは、Mambaという技術とtransformer blocksを組み合わせたハイブリッドモデルです。このモデルは、Mambaの基盤と共有transformer blocksが交互に組み合わさったZambaという構造に基づいています。Zamba2-7Bは、以前のバージョンであるZamba1から4つの大きな改善がされています。 1. Mamba1ブロックを新しいMamba2ブロックに置き換えました。
2. 共有されるMLP(多層パーセプトロン)と注意ブロックに、LoRAプロジェクターを追加しました。これにより、トランスフォーマーレイヤーの深さごとに特化した処理ができるようになり、全体のパラメータ数をほとんど増やさずに深さごとの最適化が可能になります。
3. 2種類の共有注意ブロックを交互に使用します。
4. ロータリーポジションエンベディングを共有注意レイヤーに追加しました。
ライセンス