Medusa - work4ai

Medusa

https://huggingface.co/papers/2401.10774Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

LLMの高速化