DeepSpeed: 深層学習の訓練と推論を劇的に高速化するフレームワーク - nikkie-memos

DeepSpeed: 深層学習の訓練と推論を劇的に高速化するフレームワーク

https://www.deepspeed.ai/assets/files/DeepSpeed_Overview_Japanese_2023Jun7th.pdf

p.13

データ並列

モデルを複数GPU全体に複製する

大きなモデルは学習できない

モデル並列

パイプライン並列

モデルをレイヤごとに分割

テンソル並列

行列を分割することで、大規模なモデルを複数GPUにまたがって配置

（IMO：大規模言語モデル入門2で見た覚え）

p.14 What is ZeRo?

Zero Redundancy Optimizer

データ並列のメモリ利用を効率化

p.15に続く

ZeRO、3段階の動作モード

p.16にも続く

TP + PP + DPにZeROを組み合わせられる