FP8
https://gyazo.com/9ab96d1a5942cc60cfdb72734b0aa85e
基本的にはe4m3が推論向け、e5m2が学習向けとされる。
さらにそれらの派生技術としてscaledなる単値レイヤーを備えたモデルもでてきた
このscaledモデルは(見たことある範囲では)waitに対して"scaled_wait"と言う単値(配列ではない)レイヤーを追加で持ち、対応するwaitパラメータに対する補正値を持つことで8bitのパラメータで実質的な精度をbf16に近づける事ができる wait以外に適用されるscaled_xxがあるのかは知らないmorisoba65536.icon