VIA-SD: 基于模型内路由的投机解码验证

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

VIA-SD 提出了一种多层次的投机解码框架，通过模型内路由降低验证成本，相比传统方法实现了显著的加速。

投机解码（SD）通过让轻量级草稿模型生成候选，供大型验证模型并行验证，从而解决 LLM 的高推理成本问题。现有的草稿-验证方法采用二元决策：要么接受，要么完全重算。然而，我们发现许多被拒绝的 token 可以通过从完整验证模型通过模型内路由导出的精简子模型正确验证，而无需使用完整验证模型。这促使我们使用精简验证器来处理需要中等验证资源的 token，从而减少昂贵的大型模型调用。我们提出了基于模型内路由的投机解码验证（VIA-SD），一种使用路由精简验证器的多层次框架。草稿 token 按层次处理：高置信度情况直接接受，中等置信度情况由精简验证器重新生成，低置信度情况由完整模型验证。在四个代表性任务和多个模型族上，VIA-SD 将拒绝率降低了 0.10-0.22，并在强 SD 基线基础上实现了 10-20% 的加速，同时与无草稿解码相比实现了 2.5-3 倍加速。此外，VIA-SD 与现有 SD 框架兼容，无需修改其训练流程。我们的结果表明，多层次 SD 是一种可扩展且高效的 LLM 推理通用范式。项目页面：https://zju-xyc.github.io/VIA-SD-Project-Page/

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:52

论文页面 - VIA-SD：通过模型内路由进行推测性解码的验证

来源：https://huggingface.co/papers/2606.12243

摘要

VIA-SD 提出了一种多层次推测性解码框架，通过使用模型内路由，利用精简子模型对中等置信度的令牌进行验证，从而降低验证成本，相比传统方法实现了显著的加速。

推测性解码（SD）通过使用轻量级的草稿模型生成候选序列，供大型验证模型并行验证，从而解决了大型语言模型（LLM）推理成本高昂的问题。现有的草稿-验证方法采用二元决策：要么接受，要么完全重新计算。然而，我们发现许多被拒绝的令牌可以通过从完整验证模型推导出的精简子模型（通过模型内路由）正确验证，而无需使用完整验证模型。这启发我们提出了精简验证器（slim-verifier），用于处理需要中等验证资源的令牌，从而减少昂贵的大模型调用。我们提出了用于推测性解码的模型内路由验证（Verification via Intra-Model Routing for Speculative Decoding，VIA-SD），一种使用路由精简验证器的多层次框架。草稿令牌按层次处理：高置信度情况直接接受，中等置信度情况由精简验证器重新生成，不确定情况则由完整模型验证。在四个代表性任务和多个模型家族中，VIA-SD 将拒绝率降低了 0.10-0.22，并在强 SD 基线基础上实现了 10%-20% 的加速，同时相比非草稿解码实现了 2.5-3 倍的加速。此外，VIA-SD 与现有 SD 框架兼容，无需修改其训练流程。我们的结果表明，多层次 SD 是可扩展且高效的 LLM 推理的通用范式。项目页面：https://zju-xyc.github.io/VIA-SD-Project-Page/

查看 arXiv 页面查看 PDF 项目页面添加到收藏

引用此论文的模型 0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12243 即可从此页面链接。

引用此论文的数据集 0

暂无数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12243 即可从此页面链接。

引用此论文的 Space 0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12243 即可从此页面链接。

包含此论文的收藏 0

暂无收藏包含此论文

将此论文添加到一个收藏中，即可从此页面链接。

VIA-SD: 基于模型内路由的投机解码验证

论文页面 - VIA-SD：通过模型内路由进行推测性解码的验证

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

什么是推测性解码？（在paperswithco.de上热门）[R]

自回归视频生成的投机解码

Dustin: 草稿增强的稀疏验证用于高效长上下文生成与推测解码

BudgetDraft：面向稀疏KV投机解码的接受感知多视图训练

AdaPLD：自适应检索与复用的高效无模型推测解码方法

提交意见反馈