Zamba2-7B
https://huggingface.co/Zyphra/Zamba2-7BZyphra/Zamba2-7B
https://huggingface.co/Zyphra/Zamba2-7B-InstructZyphra/Zamba2-7B-Instruct
https://huggingface.co/spaces/Zyphra/Zamba2-7BDemo
Zamba2-7Bは、Mambaという技術とtransformer blocksを組み合わせたハイブリッドモデルです。このモデルは、Mambaの基盤と共有transformer blocksが交互に組み合わさったZambaという構造に基づいています。Zamba2-7Bは、以前のバージョンであるZamba1から4つの大きな改善がされています。
1. Mamba1ブロックを新しいMamba2ブロックに置き換えました。
2. 共有されるMLP(多層パーセプトロン)と注意ブロックに、LoRAプロジェクターを追加しました。これにより、トランスフォーマーレイヤーの深さごとに特化した処理ができるようになり、全体のパラメータ数をほとんど増やさずに深さごとの最適化が可能になります。
3. 2種類の共有注意ブロックを交互に使用します。
4. ロータリーポジションエンベディングを共有注意レイヤーに追加しました。
ライセンス
Apache 2.0