MiniMax-01
https://github.com/MiniMax-AI/MiniMax-01MiniMax-AI/MiniMax-01
MiniMax-Text-01 は、合計 4,560 億のパラメーターを備えた強力な言語モデルで、そのうち 459 億がトークンごとにアクティブ化されます。モデルのロング コンテキスト機能をより適切に活用するために、MiniMax-Text-01 は、Lightning Attendance、Softmax Attendance、および Mixture-of-Experts (MoE) を組み合わせたハイブリッド アーキテクチャを採用しています。 Linear Attendance Sequence Parallelism Plus (LASP+)、varlen Ring Attendance、Expert Tensor Parallel (ETP) などの高度な並列戦略と革新的なコンピューティングと通信のオーバーラップ手法を活用することで、MiniMax-Text-01 のトレーニング コンテキストの長さは 100 万トークンに拡張され、推論中に最大 400 万トークンのコンテキストを処理できます。さまざまな学術ベンチマークでも、MiniMax-Text-01 は最上位モデルのパフォーマンスを実証しています。
https://gyazo.com/ae6bdcbd9418c21538c3174a0459c1b0
https://gyazo.com/f09c923d0eaff057b1d864b1fab8fe37
LLMTest_NeedleInAHaystack