标签
现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
讨论了推测解码的多种风格,并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。
提出PPOW,一种强化学习框架,用于优化推测解码中的草稿模型,采用窗口级目标和自适应窗口化,在多个基准测试中实现了显著加速。
SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。