Zamba2-1.2B
https://gyazo.com/388fe87d088099599f117dd576eea40a
https://gyazo.com/fb4bb8a5a4baff9f129a5fe3094c042f
Zamba2-miniは、Phi3-3.8Bと比較して、最初のトークンまでの時間を2倍短縮し、メモリオーバーヘッドを27%削減し、生成レイテンシを1.29倍短縮し、非常に推論効率が高いです。 Zamba2-mini は、Zamba1-7B に対していくつかのアーキテクチャ上の改善を行っています。 Mamba1 ブロックは Mamba2 ブロックに置き換えられました LoRAプロジェクターを共有アテンションとMLPブロックの両方に適用することで、ネットワークは共有レイヤーが深度を超えて呼び出されるたびに共有レイヤーを特殊化することができます
共有アテンションレイヤーにロータリーポジションの埋め込みを追加し、パフォーマンスがわずかに向上することがわかりました。
ライセンス