draft-model

#draft-model

MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型！

Reddit r/LocalLLaMA ↗ · 16小时前

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换，可在兼容硬件上实现推测解码加速。

0 人收藏 0 人点赞

#draft-model

Reddit r/MachineLearning ↗ · 6天前

推测性解码是一种推理优化技术，它使用快速草稿模型提出未来 token，并由较大模型并行验证，从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态，以及最近的 SGLang 博客文章，该文章介绍了使用 DFlash 模型实现的最先进延迟。

0 人收藏 0 人点赞

#draft-model

X AI KOLs Timeline ↗ · 2026-05-17 缓存

讨论了推测解码的多种风格，并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。

0 人收藏 0 人点赞

#draft-model

arXiv cs.CL ↗ · 2026-05-15 缓存

提出PPOW，一种强化学习框架，用于优化推测解码中的草稿模型，采用窗口级目标和自适应窗口化，在多个基准测试中实现了显著加速。

0 人收藏 0 人点赞

#draft-model

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法，以加速 LLMs 中的推测解码，在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞