draft-model

标签

Cards List
#draft-model

MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型!

Reddit r/LocalLLaMA · 16小时前

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。

0 人收藏 0 人点赞
#draft-model

什么是推测性解码?(在paperswithco.de上热门)[R]

Reddit r/MachineLearning · 6天前

推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。

0 人收藏 0 人点赞
#draft-model

@Ex0byt: 浅谈specdec的多种风格,以及我为何尝试为各位制作Qwen-3.6-27b EAGLE-3草稿模型

X AI KOLs Timeline · 2026-05-17 缓存

讨论了推测解码的多种风格,并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。

0 人收藏 0 人点赞
#draft-model

性能驱动的推测解码自适应窗口化策略优化

arXiv cs.CL · 2026-05-15 缓存

提出PPOW,一种强化学习框架,用于优化推测解码中的草稿模型,采用窗口级目标和自适应窗口化,在多个基准测试中实现了显著加速。

0 人收藏 0 人点赞
#draft-model

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers · 2026-05-11 缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈