D-PACE: 面向并行推测草稿的动态位置感知交叉熵

arXiv cs.LG 2026/05/20 04:00 论文

摘要

本文介绍了D-PACE，一种用于训练推测解码草稿模型的动态位置感知交叉熵损失，该损失函数自适应地加权位置以提升接受长度和推理速度，在各基准测试中实现一致的加速比，且开销极低。

arXiv:2605.18810v1 Announce Type: new 摘要：推测解码通过让一个小草稿模型提出词元，再由一个更大的目标模型并行验证，从而加速大语言模型推理。最近的基于扩散的并行草稿模型（如DFlash）在单次前向传播中预测整个B词元块，使得能够使用更深的草稿模型并获得更长的接受块。然而，现有的多词元草稿模型目标函数通常使用固定的位置相关加权策略，例如头相关权重或块位置衰减，这些策略无法在训练过程中适应限制接受的位置的变化。为了解决这个问题，我们从期望接受草稿长度的可微替代量中推导出每个位置的训练权重，使每个位置的权重与其对数概率梯度贡献相匹配。由此产生的损失函数D-PACE（动态位置感知交叉熵）将训练信号转移到当前限制接受的位置，随着草稿模型的提升而调整。在六个基准测试、两种Qwen3-4B草稿深度、两种解码温度以及另外两个目标模型上，D-PACE一致地提升了实际时间加速比和平均发射长度，训练时间开销仅增加2.3%，且无需更改草稿模型架构或推理流程。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:38

# D-PACE：用于并行推测性起草的动态位置感知交叉熵
来源：https://arxiv.org/abs/2605.18810
查看 PDF (https://arxiv.org/pdf/2605.18810) 或 HTML（实验性）(https://arxiv.org/html/2605.18810v1)

> 摘要：推测性解码通过让一个小型起草模型提出令牌，再由一个更大的目标模型并行验证，从而加速LLM推理。近年来，基于扩散的并行起草器（如DFlash）可以在一次前向传播中预测完整的B令牌块，从而支持更深的起草器和更长的接受块。然而，现有的多令牌起草器目标函数通常使用固定的位置依赖权重调度，例如头依赖权重或块位置衰减，这些调度无法随着训练过程中限制接受的位置变化而自适应调整。为了解决这个问题，我们从预期接受起草长度的可微分代理中推导出每个位置的训练权重，使每个位置的权重与其对数概率梯度的贡献相匹配。由此产生的损失函数D-PACE（动态位置感知交叉熵）将训练信号转移到当前限制接受的位置上，随着起草器的改进而动态调整。在六个基准测试、两种Qwen3-4B起草深度、两种解码温度和两个额外的目标模型上，D-PACE持续提升了墙上时钟加速比和平均发射长度，训练时间开销仅为2.3%，且无需改变起草器架构或推理过程。

## 提交历史

来自：Ju Li [查看邮件 (https://arxiv.org/show-email/2c755cb7/2605.18810)] **\[v1\]** 发布于2026年5月12日星期二 06:27:57 UTC（152 KB）

D-PACE: 面向并行推测草稿的动态位置感知交叉熵

相似文章

通过渐进式树形草稿的推测解码解锁自回归语言模型中的并行性

PARD-2：面向双模态投机解码的目标对齐并行草稿模型

DeLS-Spec: 解耦的长短上下文用于并行推测性草拟

性能驱动的推测解码自适应窗口化策略优化

Draft-OPD：面向推测式草稿模型的在线策略蒸馏

提交意见反馈