D-PACE: 面向并行推测草稿的动态位置感知交叉熵
摘要
本文介绍了D-PACE,一种用于训练推测解码草稿模型的动态位置感知交叉熵损失,该损失函数自适应地加权位置以提升接受长度和推理速度,在各基准测试中实现一致的加速比,且开销极低。
arXiv:2605.18810v1 Announce Type: new
摘要:推测解码通过让一个小草稿模型提出词元,再由一个更大的目标模型并行验证,从而加速大语言模型推理。最近的基于扩散的并行草稿模型(如DFlash)在单次前向传播中预测整个B词元块,使得能够使用更深的草稿模型并获得更长的接受块。然而,现有的多词元草稿模型目标函数通常使用固定的位置相关加权策略,例如头相关权重或块位置衰减,这些策略无法在训练过程中适应限制接受的位置的变化。为了解决这个问题,我们从期望接受草稿长度的可微替代量中推导出每个位置的训练权重,使每个位置的权重与其对数概率梯度贡献相匹配。由此产生的损失函数D-PACE(动态位置感知交叉熵)将训练信号转移到当前限制接受的位置,随着草稿模型的提升而调整。在六个基准测试、两种Qwen3-4B草稿深度、两种解码温度以及另外两个目标模型上,D-PACE一致地提升了实际时间加速比和平均发射长度,训练时间开销仅增加2.3%,且无需更改草稿模型架构或推理流程。
查看缓存全文
缓存时间: 2026/05/20 08:38
# D-PACE:用于并行推测性起草的动态位置感知交叉熵 来源:https://arxiv.org/abs/2605.18810 查看 PDF (https://arxiv.org/pdf/2605.18810) 或 HTML(实验性)(https://arxiv.org/html/2605.18810v1) > 摘要:推测性解码通过让一个小型起草模型提出令牌,再由一个更大的目标模型并行验证,从而加速LLM推理。近年来,基于扩散的并行起草器(如DFlash)可以在一次前向传播中预测完整的B令牌块,从而支持更深的起草器和更长的接受块。然而,现有的多令牌起草器目标函数通常使用固定的位置依赖权重调度,例如头依赖权重或块位置衰减,这些调度无法随着训练过程中限制接受的位置变化而自适应调整。为了解决这个问题,我们从预期接受起草长度的可微分代理中推导出每个位置的训练权重,使每个位置的权重与其对数概率梯度的贡献相匹配。由此产生的损失函数D-PACE(动态位置感知交叉熵)将训练信号转移到当前限制接受的位置上,随着起草器的改进而动态调整。在六个基准测试、两种Qwen3-4B起草深度、两种解码温度和两个额外的目标模型上,D-PACE持续提升了墙上时钟加速比和平均发射长度,训练时间开销仅为2.3%,且无需改变起草器架构或推理过程。 ## 提交历史 来自:Ju Li [查看邮件 (https://arxiv.org/show-email/2c755cb7/2605.18810)] **\[v1\]** 发布于2026年5月12日星期二 06:27:57 UTC(152 KB)
相似文章
PARD-2:面向双模态投机解码的目标对齐并行草稿模型
本文介绍了 PARD-2,这是一种双模态投机解码框架,利用目标对齐的并行草稿模型加速大语言模型(LLM)推理,在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。
性能驱动的推测解码自适应窗口化策略优化
提出PPOW,一种强化学习框架,用于优化推测解码中的草稿模型,采用窗口级目标和自适应窗口化,在多个基准测试中实现了显著加速。
Draft-OPD:面向推测式草稿模型的在线策略蒸馏
Draft-OPD 引入在线策略蒸馏,结合目标辅助展开和错误重放,克服了训练用于推测解码的草稿模型时存在的离线到推理不匹配问题,实现了超过5倍的无损加速,相较于EAGLE-3和DFlash分别提升了23%和13%。
BudgetDraft:面向稀疏KV投机解码的接受感知多视图训练
BudgetDraft提出了一种多视图训练方法,用于投机解码,将稀疏KV起草者与全KV验证者对齐,在中长上下文推理中实现了显著的加速。
AdaPLD:自适应检索与复用的高效无模型推测解码方法
AdaPLD是一种无需训练的方法,通过自适应检索结合词汇与语义相似度,并构建分支复用假设来处理续写不确定性,从而提升无模型推测解码的效率,最高可实现3.10倍解码加速。