VIA-SD: 基于模型内路由的投机解码验证
摘要
VIA-SD 提出了一种多层次的投机解码框架,通过模型内路由降低验证成本,相比传统方法实现了显著的加速。
查看缓存全文
缓存时间: 2026/06/12 10:52
论文页面 - VIA-SD:通过模型内路由进行推测性解码的验证
来源:https://huggingface.co/papers/2606.12243
摘要
VIA-SD 提出了一种多层次推测性解码框架,通过使用模型内路由,利用精简子模型对中等置信度的令牌进行验证,从而降低验证成本,相比传统方法实现了显著的加速。
推测性解码(SD)通过使用轻量级的草稿模型生成候选序列,供大型验证模型并行验证,从而解决了大型语言模型(LLM)推理成本高昂的问题。现有的草稿-验证方法采用二元决策:要么接受,要么完全重新计算。然而,我们发现许多被拒绝的令牌可以通过从完整验证模型推导出的精简子模型(通过模型内路由)正确验证,而无需使用完整验证模型。这启发我们提出了精简验证器(slim-verifier),用于处理需要中等验证资源的令牌,从而减少昂贵的大模型调用。我们提出了用于推测性解码的模型内路由验证(Verification via Intra-Model Routing for Speculative Decoding,VIA-SD),一种使用路由精简验证器的多层次框架。草稿令牌按层次处理:高置信度情况直接接受,中等置信度情况由精简验证器重新生成,不确定情况则由完整模型验证。在四个代表性任务和多个模型家族中,VIA-SD 将拒绝率降低了 0.10-0.22,并在强 SD 基线基础上实现了 10%-20% 的加速,同时相比非草稿解码实现了 2.5-3 倍的加速。此外,VIA-SD 与现有 SD 框架兼容,无需修改其训练流程。我们的结果表明,多层次 SD 是可扩展且高效的 LLM 推理的通用范式。项目页面:https://zju-xyc.github.io/VIA-SD-Project-Page/
引用此论文的模型 0
暂无模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12243 即可从此页面链接。
引用此论文的数据集 0
暂无数据集引用此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12243 即可从此页面链接。
引用此论文的 Space 0
暂无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2606.12243 即可从此页面链接。
包含此论文的收藏 0
暂无收藏包含此论文
将此论文添加到一个收藏中,即可从此页面链接。
相似文章
什么是推测性解码?(在paperswithco.de上热门)[R]
推测性解码是一种推理优化技术,它使用快速草稿模型提出未来 token,并由较大模型并行验证,从而提高 LLM 的生成速度。文章强调了它在 Papers with Code 上的热门状态,以及最近的 SGLang 博客文章,该文章介绍了使用 DFlash 模型实现的最先进延迟。
自回归视频生成的投机解码
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。
Dustin: 草稿增强的稀疏验证用于高效长上下文生成与推测解码
Dustin提出了一种用于推测解码的稀疏验证框架,利用草稿模型信号和稀疏注意力头评分克服KV缓存验证瓶颈,在长上下文任务中自注意力加速达27.85倍,端到端解码加速达9.17倍,且精度损失可忽略不计。
BudgetDraft:面向稀疏KV投机解码的接受感知多视图训练
BudgetDraft提出了一种多视图训练方法,用于投机解码,将稀疏KV起草者与全KV验证者对齐,在中长上下文推理中实现了显著的加速。
AdaPLD:自适应检索与复用的高效无模型推测解码方法
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。