FP8
https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.htmlUsing FP8 with Transformer Engine¶
https://gyazo.com/9ab96d1a5942cc60cfdb72734b0aa85e
基本的にはe4m3が推論向け、e5m2が学習向けとされる。
さらにそれらの派生技術としてscaledなる単値レイヤーを備えたモデルもでてきた
このscaledモデルは(見たことある範囲では)waitに対して"scaled_wait"と言う単値(配列ではない)レイヤーを追加で持ち、対応するwaitパラメータに対する補正値を持つことで8bitのパラメータで実質的な精度をbf16に近づける事ができる
wait以外に適用されるscaled_xxがあるのかは知らないmorisoba65536.icon
https://www.reddit.com/r/StableDiffusion/comments/1gc0wj8/sd35_large_fp8_scaled_vs_sd_35_large_q8_0_running/https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/discussions/4現状のscaledモデルに関する情報ソース(もうちょっと一次情報に近いもの知ってる人いたら追記求む)