Megatron-LM
LLM の分散学習するやつ
NVIDIA/Megatron-LM: Ongoing research training transformer models at scale
Megatron-LMの概要と各種パラメータについて(10/27日勉強会公開用)
Bridge
NVIDIA-NeMo/Megatron-Bridge: Training library for Megatron-based models with bidirectional Hugging Face conversion capability
Megatron Core のModel構造が HF Transformers と違うので吸収するやつ
いろいろな並列性が実装されている
Parallelisms Guide — Megatron Bridge
HF → Megatron / Megatron → HF ができる
SFT / PEFT ができるとあるが trl や peft をそのまま使えるというわけではない
Configuration Overview — Megatron Bridge
deepspeedai/Megatron-DeepSpeed があったけどもうマージ済み?
distributed optimizer (ZeRO 1, 2) / Megatron-FSDP (ZeRO-3 相当)がある?
#LLM