Recurrent Drafter for Fast Speculative Decoding
https://huggingface.co/papers/2403.09919Recurrent Drafter for Fast Speculative Decoding in Large Language Models
投機的デコードの2 つの確立された技術の長所を利用
古典的な 2 モデルのSpeculative samplingアプローチ
より最近の単一モデル アプローチである Medusa
Medusa からインスピレーションを得た私たちのアプローチは、投機的デコードに単一モデル戦略を採用しています。
https://gyazo.com/bce36afa428b43c7c79a27197e0224b5
Vicuna
#Apple
LLMの高速化