SENSE:基于语义嵌入导航与软门控评估的检索式推测解码
摘要
提出SENSE,一种用于检索式推测解码的语义嵌入导航方法,利用隐状态进行语义对齐和软门控评估,在LLaMA和Qwen系列上实现高达3.26倍加速,同时保持生成质量。
arXiv:2606.00021v1 公告类型:新 \n摘要:推测解码(SD)通过使用轻量级草稿模型提出候选令牌,并由目标模型并行验证,从而加速大型语言模型(LLM)推理,且不损害生成质量。虽然基于检索的推测解码(RSD)因其即插即用的通用性而受到青睐,但其潜力受到严格的词汇依赖关系的阻碍,使得检索和验证对表面变化都较为脆弱。为了解决这一问题,我们提出了SENSE(基于语义嵌入导航与软门控评估)。通过将检索锚定在目标模型的隐状态上,SENSE建立了稳健的语义对齐,这使得软门控评估模块能够验证语义等价性而非表面形式。为了确保严格的基准测试,我们将现有方法解构为统一框架中的原子原语,促进细粒度的组件级比较。跨多个领域的广泛实验表明,SENSE在LLaMA和Qwen系列上优于多个基线,实现了高达4.09的平均接受长度和3.26倍加速,同时保持生成质量。我们的代码将在发表后发布。
查看缓存全文
缓存时间: 2026/06/02 15:35
# SENSE:面向检索式推测解码的语义嵌入导航与软门控评估
来源:https://arxiv.org/html/2606.00021
###### 摘要
推测解码(Speculative Decoding, SD)通过使用轻量级草稿模型提出候选词元,并由目标模型并行验证,从而加速大型语言模型(LLM)推理,同时不损害生成质量。基于检索的推测解码(Retrieval-based Speculative Decoding, RSD)因其即插即用的通用性而备受青睐,但其潜力受限于严格的词汇依赖,导致检索和验证对表面形式变化十分脆弱。为解决这一问题,我们提出 SENSE(语义嵌入导航与软门控评估)。通过将检索锚定于目标模型的隐藏状态,SENSE建立了鲁棒的语义对齐,使软门控评估模块能够验证语义等价性而非表面形式。为确保严格的基准测试,我们将现有方法分解为统一框架内的原子原语,从而实现细粒度的组件级比较。跨多个领域的广泛实验表明,SENSE在LLaMA和Qwen系列上优于多个基线,达到高达4.09的平均接受长度和3.26×\textbf{3.26}\times的加速,同时保持生成质量。我们的代码将在发表后公开。
机器学习,ICML
## 1 引言
尽管大型语言模型(LLM)通过参数规模扩展最大化表达能力(Kaplan等,2020;Chowdhery等,2022),但其推理效率受限于自回归解码的顺序性质(Zeng等,2023;Guo等,2025)。在众多优化范式(Zhou等,2024)中,推测解码(SD)因其结构解耦而脱颖而出。通过利用轻量级草稿模型,SD在加速生成的同时,本质上不依赖于目标模型的架构(Leviathan等,2023)。请参见图注 图1:(a) 标准RSD基于词元跨度使用精确匹配规则检索词元。该方法受限于词汇约束,因为它严格要求检索到的草稿与下一词元“employs”完全匹配。(b) SENSE利用隐藏状态进行语义对齐检索。这使得它能够检索语义相似的草稿,并通过软门控匹配机制进行验证,从而有效克服严格的词汇约束。
在SD领域中,基于检索的推测解码(RSD)以其即插即用的通用性脱颖而出,无需修改即可在异构模型架构和词汇表上有效工作(Somasundaram等,2024)。然而,它们的灵活性本质上受限于精确匹配规则的刚性。因此,许多语义对齐的片段因离散的词元级差异而被错误拒绝。受优先考虑语义等价而非词汇精确性的宽松SD策略(Garipov等,2025)启发,我们提出一个关键问题:检索增强的草稿生成与语义感知验证的协同作用能否使RSD摆脱严格词汇匹配的限制?检索阶段存在一个关键瓶颈:基于词汇的检索键的刚性。主流范式通常仅将检索锚定于目标模型的即时词元预测,施加严格的的前缀约束,严重限制候选池(He等,2024;Ho等,2024)。虽然像AASD(Wang等,2025b)和SpecLogic(Liu等,2026)这样的最新方法试图通过扩展搜索空间来缓解这一限制,但它们仍受限于词元级精确匹配的固有刚性。因此,这些策略未能捕捉生成过程中丰富的语义细微差别,导致检索机制对语义等价但词汇不同的候选视而不见。此外,检索候选的内在性质从根本上限制了验证的灵活性。由于缺乏诸如特定概率logits之类的生成元数据,这些候选与高级分布对齐启发式方法(1)不兼容。而且,虽然检索可以扩展到庞大的候选池,但由此产生的大批量大小给传统的线性验证策略带来了严重的计算瓶颈(Li等,2025a),从而抵消了潜在的效率提升。在本文中,我们引入SENSE(语义嵌入导航与软门控评估)来克服这些问题。通过锚定语义对齐,SENSE协同了基于嵌入的检索与互补的软门控评估。为克服词汇刚性,我们引入语义嵌入导航(SEN),它将检索锚定于目标模型的隐藏状态而非离散词元预测。通过查询静态数据存储和动态上下文,SEN检索与模型生成意图对齐的候选,即使其表面形式与贪婪预测相异。作为SEN的补充,我们引入了软门控评估(SE),这是一种自适应的验证协议,旨在挽救语义等价的候选。在熵引导逻辑的驱动下,SE在高置信度区域强制执行严格的精确匹配,同时通过分布性的top-k对齐和并行化邻域融合自适应地验证高不确定性跨度,以最小化验证开销。作为方法的补充,我们通过将SD分解为原子组件建立了一个统一的测试床,实现了不同基线的标准化和公平评估。我们的代码将公开以促进可重现的研究。总结起来,我们的贡献有三方面。首先,我们提出了SENSE(语义嵌入导航与软门控评估),这是一个无需训练的框架,通过将检索锚定于隐藏状态并采用熵引导验证来接受语义有效候选,从而克服RSD的词汇刚性。其次,为确保公平且可重现的比较,我们实现了一个系统化的编排框架,将SD分解为可互换的原语,实现了跨不同方法的标准化基准测试。第三,我们通过在LLaMA和Qwen骨干上的广泛实验验证了SENSE,实现了高达3.26×\textbf{3.26}\times的加速,每个解码步骤的平均接受长度为4.09个词元。
## 2 相关工作
基于检索的推测解码通过“检索-验证”范式加速LLM推理:轻量级检索器从数据存储中获取候选,随后由目标模型进行并行验证(Hu等,2025;Ryu和Kim,2024)。我们沿三个维度组织相关文献:基于检索的草稿生成、宽松验证策略和树结构并行。
### 2.1 基于检索的草稿生成
基于检索的草稿生成方法(Yang等,2023;He等,2024;Hu等,2024;Ho等,2024)从外部数据存储中获取候选延续。稀疏方法依赖精确n-gram匹配,使其易受表面形式脆弱性的影响;相反,密集检索(Gritta等,2025)通过利用语义嵌入缓解了这一限制。类似地,混合策略(Somasundaram等,2024;Liu等,2026;Stewart等,2024)和异构架构(Divilkovskiy等,2025)进一步扩展了搜索范围。然而,尽管这些方法提供了扩展的检索空间,它们在随后的过滤和验证阶段仍受限于*词汇刚性*(Wang等,2025b)。我们通过将检索锚定于隐藏状态并整合分布约束来缓解这些刚性边界,从而解决这一限制。
### 2.2 宽松验证策略
精确匹配验证严格拒绝语义有效但非相同的草稿(Holtzman等,2020)。基于训练的宽松方法(Bachmann等,2025;Garipov等,2025)通过学习语义判断来规避严格的词元匹配,而无需训练的方法(J. Li, Y. Xu, G. Li, S. Yang, J. Xu, X. Yin, D. Li, E. C. H. Ngai, and E. Barsoum (2025a); J. Wang, Z. Tian, J. Li, Q. Xia, X. Duan, Z. Wang, B. Huai, and M. Zhang (2025b); 1)利用熵度量或风险边界。关键的是,这些方法受限于沿线性路径的一维标准,导致早期失败时有效未来词元的级联丢失。我们协同top-k成员资格和邻域融合误差密度来鲁棒地验证并行轨迹。
### 2.3 树结构并行
树结构并行(Miao等,2024)通过前缀共享分摊计算成本。现有方法从草稿生成器推导树(Cai等,2024;Li等,2025b;Chen等,2025)或搜索高接受率结构(Wang等,2025a;Quan等,2025)。遍历验证(Weng等,2025)进一步保留子序列,通过叶到根的接受防止过早剪枝。为容纳缺乏固有前缀组织的密集检索候选,我们提出通过排序-LCP对齐构建松散Trie树以实现高效压缩。
请参见图注 图2:SENSE框架概述。(左侧)语义嵌入导航模块基于输入的隐藏状态检索语义对齐的草稿。这些草稿被展平成松散Trie结构,以便目标模型进行高效验证。(右侧)软门控评估模块使用级联掩码过滤验证结果,以鲁棒地确定最终接受的词元。
## 3 方法
在3.1节预备知识之后,我们介绍SENSE(图3),它协同了语义嵌入导航(SEN)(3.2节)以增强检索多样性,以及软门控评估(SE)(3.3节)以挽救语义等价但词汇不同的词元。最后,我们建立一个统一框架,以实现跨不同SD范式的公平比较和可重现的基准测试。
### 3.1 预备知识
鉴于SD的迭代特性,我们聚焦于生成特定词元\(x_t\)时的操作逻辑。设\(q\)... (3.1节之后包含更多数学公式和描述,需继续翻译)
(注:由于3.1节之后的文本在用户消息中被截断,实际翻译需基于提供的完整内容。但用户消息中包含了3.1节部分文本及后续公式。为保持连贯,我们已根据上下文翻译了可获得的文本。下续部分需按相同原则处理。)相似文章
AdaPLD:自适应检索与复用的高效无模型推测解码方法
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。
减少草稿,增加检索:用于推测解码的混合树构建
Graft 是一个无需训练的框架,通过结合剪枝与检索来增强推测解码,从而提高接受率和推理速度。在短上下文基准测试中,其加速比最高可达5.41倍,在Qwen3-235B上相比EAGLE-3的提升最高可达21.8%。
通过序列蒙特卡洛加速LLM推理
本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。
MicroSpec: 通过轻量级上下文词汇表加速推测解码
MicroSpec 是一种无需训练的技术,它能即时构建紧凑的上下文感知词汇表,以加速大型语言模型中的推测解码,将平均词汇表大小减少40倍以上,并相比EAGLE-2实现了高达1.32倍的端到端加速。
跨语言的推测解码
本文比较了三种策略以提高非英语语言的推测解码效率,发现任务特定蒸馏能提高接受率但泛化性差,而n-gram草稿模型尽管接受率较低,却能提供持续的加速。