Megatron-LM

LLM の分散学習するやつ

Bridge

Megatron Core のModel構造が HF Transformers と違うので吸収するやつ

いろいろな並列性が実装されている

HF → Megatron / Megatron → HF ができる

SFT / PEFT ができるとあるが trl や peft をそのまま使えるというわけではない

deepspeedai/Megatron-DeepSpeed があったけどもうマージ済み?

distributed optimizer (ZeRO 1, 2) / Megatron-FSDP (ZeRO-3 相当)がある?