DFlash
https://github.com/z-lab/dflashz-lab/dflash
主な対応モデル
https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlasz-lab/Qwen3.6-35B-A3B-DFlash
https://huggingface.co/z-lab/Qwen3.5-4B-DFlashz-lab/Qwen3.5-4B-DFlash
https://huggingface.co/z-lab/Qwen3.5-9B-DFlashz-lab/Qwen3.5-9B-DFlash
https://huggingface.co/z-lab/Qwen3.5-27B-DFlashz-lab/Qwen3.5-27B-DFlash
https://huggingface.co/z-lab/Qwen3.5-35B-A3B-DFlashz-lab/Qwen3.5-35B-A3B-DFlash
https://huggingface.co/z-lab/Qwen3-Coder-Next-DFlashz-lab/Qwen3-Coder-Next-DFlash
https://huggingface.co/z-lab/Qwen3-Coder-30B-A3B-DFlashz-lab/Qwen3-Coder-30B-A3B-DFlash
https://huggingface.co/z-lab/gpt-oss-20b-DFlashz-lab/gpt-oss-20b-DFlash
https://huggingface.co/z-lab/gpt-oss-120b-DFlashz-lab/gpt-oss-120b-DFlash
DFlashは、投機的復号化向けに設計された軽量ブロック拡散モデルです。効率的かつ高品質な並列ドラフト作成を可能にします。
投機的デコードの手法の一つで最大8倍程度加速する
モデルの中間状態から拡散モデルで出力結果を予測して大量にデコード、それを検証することで整合性を判断してそのまま使えるものを使うことで速度を上げる。
2026/04/23現在
https://github.com/ggml-org/llama.cpp/pull/22105llama.cppにプルリクエストが出ているようだ(まだ時間は掛かりそう)
https://github.com/bstnxbt/dflash-mlxbstnxbt/dflash-mlx
mac(mlx)向けには統合されたものが出ているようだ