DFlash - work4ai

DFlash

https://github.com/z-lab/dflashz-lab/dflash

主な対応モデル

https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlasz-lab/Qwen3.6-35B-A3B-DFlash

https://huggingface.co/z-lab/Qwen3.5-4B-DFlashz-lab/Qwen3.5-4B-DFlash

https://huggingface.co/z-lab/Qwen3.5-9B-DFlashz-lab/Qwen3.5-9B-DFlash

https://huggingface.co/z-lab/Qwen3.5-27B-DFlashz-lab/Qwen3.5-27B-DFlash

https://huggingface.co/z-lab/Qwen3.5-35B-A3B-DFlashz-lab/Qwen3.5-35B-A3B-DFlash

https://huggingface.co/z-lab/Qwen3-Coder-Next-DFlashz-lab/Qwen3-Coder-Next-DFlash

https://huggingface.co/z-lab/Qwen3-Coder-30B-A3B-DFlashz-lab/Qwen3-Coder-30B-A3B-DFlash

https://huggingface.co/z-lab/gpt-oss-20b-DFlashz-lab/gpt-oss-20b-DFlash

https://huggingface.co/z-lab/gpt-oss-120b-DFlashz-lab/gpt-oss-120b-DFlash

DFlashは、投機的復号化向けに設計された軽量ブロック拡散モデルです。効率的かつ高品質な並列ドラフト作成を可能にします。

投機的デコードの手法の一つで最大8倍程度加速する

モデルの中間状態から拡散モデルで出力結果を予測して大量にデコード、それを検証することで整合性を判断してそのまま使えるものを使うことで速度を上げる。

2026/04/23現在

https://github.com/ggml-org/llama.cpp/pull/22105llama.cppにプルリクエストが出ているようだ(まだ時間は掛かりそう)

https://github.com/bstnxbt/dflash-mlxbstnxbt/dflash-mlx

mac(mlx)向けには統合されたものが出ているようだ