Galore
フルパラメータ学習を可能にしながら、LoRA などの一般的な低ランク適応方法よりもメモリ効率が高いトレーニング戦略である勾配低ランク投影 (GaLore) を提案します。 オプティマイザー状態でのメモリ使用量を最大 65.5% 削減しながら、最大 197 億のトークンを含む C4 データセットを使用した LLaMA 1B および 7B アーキテクチャでの事前トレーニングと、GLUE タスクでの RoBERTa の微調整の効率とパフォーマンスの両方を維持します。 当社の 8 ビット GaLore は、BF16 ベースラインと比較して、オプティマイザー メモリを最大 82.5%、総トレーニング メモリを 63.3% 削減します。特に、モデルの並列化、チェックポイント設定、またはオフロード戦略を使用せずに、24GB メモリを備えたコンシューマ GPU (NVIDIA RTX 4090 など) で 7B モデルを事前トレーニングする実現可能性を初めて実証しました。