MiniMax-01
https://github.com/MiniMax-AI/MiniMax-01
MiniMax-AI
/
MiniMax-01
MiniMax-Text-01
は、合計 4,560 億のパラメーターを備えた強力な言語モデルで、そのうち 459 億がトークンごとにアクティブ化されます。モデルのロング コンテキスト機能をより適切に活用するために、MiniMax-Text-01 は、
Lightning Attendance
、
Softmax Attendance
、および Mixture-of-Experts (
MoE
) を組み合わせたハイブリッド アーキテクチャを採用しています。
Linear Attendance Sequence Parallelism Plus
(
LASP+
)、
varlen Ring Attendance
、
Expert Tensor Parallel
(
ETP
) などの高度な並列戦略と革新的なコンピューティングと通信のオーバーラップ手法を活用することで、MiniMax-Text-01 のトレーニング コンテキストの長さは 100 万トークンに拡張され、推論中に最大 400 万トークンのコンテキストを処理できます。さまざまな学術ベンチマークでも、MiniMax-Text-01 は最上位モデルのパフォーマンスを実証しています。
https://gyazo.com/ae6bdcbd9418c21538c3174a0459c1b0
https://gyazo.com/f09c923d0eaff057b1d864b1fab8fe37
LLMTest_NeedleInAHaystack