Megatron-LM
LLM の分散学習するやつ
Bridge
Megatron Core のModel構造が HF Transformers と違うので吸収するやつ
いろいろな並列性が実装されている
HF → Megatron / Megatron → HF ができる
SFT / PEFT ができるとあるが trl や peft をそのまま使えるというわけではない distributed optimizer (ZeRO 1, 2) / Megatron-FSDP (ZeRO-3 相当)がある?