DeepSpeed: 深層学習の訓練と推論を劇的に高速化するフレームワーク
p.13
データ並列
モデルを複数GPU全体に複製する
大きなモデルは学習できない
モデル並列
パイプライン並列
モデルをレイヤごとに分割
テンソル並列
行列を分割することで、大規模なモデルを複数GPUにまたがって配置
(IMO:大規模言語モデル入門2で見た覚え)
p.14 What is ZeRo?
Zero Redundancy Optimizer
データ並列のメモリ利用を効率化
p.15に続く
ZeRO、3段階の動作モード
p.16にも続く
TP + PP + DPにZeROを組み合わせられる