FP8 - work4ai

FP8

https://gyazo.com/9ab96d1a5942cc60cfdb72734b0aa85e

基本的にはe4m3が推論向け、e5m2が学習向けとされる。

さらにそれらの派生技術としてscaledなる単値レイヤーを備えたモデルもでてきた

このscaledモデルは(見たことある範囲では)waitに対して"scaled_wait"と言う単値(配列ではない)レイヤーを追加で持ち、対応するwaitパラメータに対する補正値を持つことで8bitのパラメータで実質的な精度をbf16に近づける事ができる

wait以外に適用されるscaled_xxがあるのかは知らないmorisoba65536.icon