# 支持性令牌揭示:用于快速扩散语言模型解码

arXiv cs.CL 论文

摘要

本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。

arXiv:2606.04236v1 公告类型:新论文 摘要:离散扩散语言模型可以通过并行更新多个被掩码的位置来高效生成文本,但这种并行性引入了质量与延迟之间的权衡。激进的解码策略可能过早提交相互依赖的词元,而保守的解码策略则需要大量去噪步骤。现有方法通过置信度或依赖性标准来判断哪些词元可以安全揭示,从而应对这一矛盾。然而,避免不安全的提交并不一定能使剩余的掩码序列易于解码,因为不确定的词元可能依赖于仍被掩码的词元,从而为去噪步骤制造瓶颈。我们提出了 AXON——一个无需训练的模块,可附加于扩散语言模型现有并行解码策略之上。AXON 并不替换基础解码器,而是监控剩余的不确定掩码词元,仅在其当前状态表明需要额外上下文时才介入。它将判断标准从"哪些词元最安全可揭示"转变为"哪些有把握的揭示最有助于后续去噪"。AXON 利用注意力、不确定性和置信度信号,从有把握的掩码词元中选取锚点(anchor),供不确定位置加以参考。在多个扩散语言模型的推理与代码生成基准上进行的实验表明,AXON 改善了现有并行解码器的质量-延迟权衡,通常在保持甚至提升准确率的同时减少了函数评估次数。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:13

# 支持性词元揭示:面向快速扩散语言模型解码
来源:https://arxiv.org/html/2606.04236

Giries Abu Ayoub¹,Mario Barbara¹,Lluís Pastor\-Pérez²,Tanja Bien²,Aneesh Barthakur²,Alaa Maalouf¹,Loay Mualem²,³

¹海法大学计算机科学系 ²斯图加特大学人工智能研究所 ³IMPRS\-IS

如有问题请联系:jerryabuayob@gmail\.com (https://arxiv.org/html/2606.04236v1/mailto:[email protected])

###### 摘要

离散扩散语言模型可通过并行更新多个掩码位置来高效生成文本,但这种并行性引入了质量与延迟之间的权衡。激进的解码策略可能过早地提交相互依赖的词元,而保守的解码策略则需要大量去噪步骤。现有方法通过置信度或依赖性准则来决定哪些词元可以安全揭示,以此缓解这一矛盾。然而,避免不安全的提交并不一定会让剩余的掩码序列易于解码,因为不确定的词元可能依赖于被掩码的词元,从而形成去噪步骤的瓶颈。我们提出了 **AXON**,一个无需训练的模块,可叠加于现有的扩散语言模型并行解码策略之上。AXON 并不替换基础解码器,而是持续监测剩余的不确定掩码词元,仅在其当前状态表明需要额外上下文时才进行干预。它将判断准则从"哪些词元最安全"转变为"哪些置信的揭示最能支持后续去噪"。AXON 利用注意力、不确定性和置信度信号来选择锚点——即不确定位置所关注的置信掩码词元。在多个扩散语言模型上针对推理和代码生成基准进行的实验表明,AXON 提升了现有并行解码器的质量\-延迟权衡,在保持或提升准确率的同时,往往还能减少函数评估次数。

https://github.com/Jerryaa98/AXON.git

支持性词元揭示:面向快速扩散语言模型解码

Giries Abu Ayoub¹,Mario Barbara¹,Lluís Pastor\-Pérez²,Tanja Bien²,Aneesh Barthakur²,Alaa Maalouf¹,Loay Mualem²,³†

†通讯作者

¹海法大学计算机科学系 ²斯图加特大学人工智能研究所 ³IMPRS\-IS

如有问题请联系:jerryabuayob@gmail\.com (https://arxiv.org/html/2606.04236v1/mailto:[email protected])

## 1 引言

参见说明图 1:**AXON 概览**。快速并行解码器从当前掩码状态中提议词元。AXON 使用轻量级门控机制检测上下文支持不足的情况,利用注意力、不确定性和置信度信号选取具有影响力的锚点,并将其揭示为下一去噪步骤的上下文。

自回归语言模型 Radford et al\.\(2019 (https://arxiv.org/html/2606.04236#bib.bib12)\); Brown et al\.\(2020 (https://arxiv.org/html/2606.04236#bib.bib13)\) 每次生成一个词元,使其推理过程本质上是顺序的。扩散大语言模型(dLLMs)Shi et al\.\(2024 (https://arxiv.org/html/2606.04236#bib.bib21)\); Sahoo et al\.\(2024 (https://arxiv.org/html/2606.04236#bib.bib8)\); Li et al\.\(2022 (https://arxiv.org/html/2606.04236#bib.bib9)\); Gong et al\.\(2022 (https://arxiv.org/html/2606.04236#bib.bib10)\); Lou et al\.\(2024 (https://arxiv.org/html/2606.04236#bib.bib11)\) 提供了一种不同的生成范式:从掩码序列出发,通过迭代去噪,在每一步预测所有掩码位置。这种双向精炼过程使 dLLMs 在低延迟文本生成方面颇具吸引力,因为多个位置可以并行更新。近期的 dLLMs,如 LLaDA Nie et al\.\(2026 (https://arxiv.org/html/2606.04236#bib.bib24)\) 和 Dream Ye et al\.\(2025 (https://arxiv.org/html/2606.04236#bib.bib25)\),表明该范式能够产生具有竞争力的文本生成效果,同时暴露出自回归从左到右解码所缺乏的天然并行性来源。

然而,同时解码任意词元可能产生不一致的配置,因为词元之间可能通过句法、语义、算术约束或多词元实体相互耦合。现有的无训练并行解码方法主要通过判断哪些词元可以安全地一起提交来解决这一问题。基于置信度的方法 Wu et al\.\(2025 (https://arxiv.org/html/2606.04236#bib.bib14)\); Ben\-Hamu et al\.\(2026 (https://arxiv.org/html/2606.04236#bib.bib15)\); Kim et al\.\(2026b (https://arxiv.org/html/2606.04236#bib.bib16)\); Shu et al\.\(2026 (https://arxiv.org/html/2606.04236#bib.bib29)\) 揭示边缘概率足够高的词元,隐式假设高置信度词元既可靠又相互解耦/独立。更近期的依赖感知方法 Luo et al\.\(2026 (https://arxiv.org/html/2606.04236#bib.bib17)\); Ringel et al\.\(2026 (https://arxiv.org/html/2606.04236#bib.bib19)\); Zhou et al\.\(2026 (https://arxiv.org/html/2606.04236#bib.bib30)\); Kim et al\.\(2026a (https://arxiv.org/html/2606.04236#bib.bib31)\) 则利用注意力或分布相似性来估计掩码位置之间的交互,以避免同时提交强耦合词元。

然而,即便避免了不安全的提交,剩余的掩码位置仍可能缺乏足够的可见上下文,难以进行可靠的并行解码。这造成了一个瓶颈:解码变得越来越保守,甚至完全停滞。

在本文中,我们对快速 dLLM 解码持有一种互补的视角。我们不仅仅询问哪些词元可以立即安全揭示,还询问哪些掩码词元若被提前揭示,能为剩余不确定位置提供最有用的上下文。有些词元已经易于提交,因为它们置信度高且与其他词元弱耦合。另一些词元则具有较大影响力,因为许多不确定位置都关注它们或依赖于它们。揭示这些词元可以改善后续去噪步骤的上下文支持,并减少解码瓶颈。

受此观点启发,我们提出 **AXON**\*\*\*我们将该方法命名为 AXON,类比神经系统中的轴突:它揭示少量高影响力的词元,在去噪过程中将有用的上下文传递给不确定位置。,一个可叠加于现有并行解码策略之上的无训练模块。AXON 将有影响力词元的揭示视为一个小规模集合选择问题。它利用注意力、不确定性和置信度信号对候选词元进行评分,并通过基于覆盖度的目标函数选出一个小而非冗余的子集。覆盖度视角自然地引出了一个次模函数目标,因为一旦某个不确定位置已经被一个选定词元所支持(即被覆盖),另一个支持同一位置的词元所能贡献的额外价值就会减少。由于并非每一步都需要执行该选择,AXON 使用轻量级门控机制,仅在当前掩码词元看起来支持不足时才激活它。图 1 (https://arxiv.org/html/2606.04236#S1.F1) 提供了该过程的概览。

我们在多个扩散语言模型和并行解码器上针对推理和代码生成基准评估了 AXON。结果表明,AXON 相较于强基线提升了质量\-延迟权衡。具体而言,我们的贡献如下:

- 我们引入了一种对快速 dLLM 解码的互补视角:除了选择可安全提交的词元,解码器还可以揭示有信息量的掩码词元,为剩余位置提供有用的上下文。
- 我们提出了 AXON,一个面向现有并行 dLLM 解码器的无训练模块。AXON 仅在当前掩码序列看起来支持不足时才进行干预。它首先应用门控机制检测此类状态,然后识别被不确定位置强烈关注的置信掩码词元,最后通过基于覆盖度的目标函数选出一个非冗余的锚点子集。揭示所选锚点能够为剩余掩码位置提供有针对性的上下文,而无需修改底层模型。
- 我们在多个骨干模型、推理和代码生成基准以及多个并行解码器家族(包括基于置信度、局部感知和依赖感知的策略)上评估了 AXON。在这些设置中,AXON 在保持骨干模型冻结的情况下改善了质量\-延迟权衡。

## 2 相关工作

快速 dLLM 推理方法的主要区别在于如何在去噪过程中选择和揭示掩码位置。下面我们首先回顾离散 dLLMs,然后介绍针对冻结骨干模型的无训练解码方法和依赖感知并行解码方法。

**离散 dLLMs。** 将去噪扩散扩展到离散空间,离散 dLLMs 通过逐词元的边缘预测来参数化反向过程 \(Shi et al\.,2024 (https://arxiv.org/html/2606.04236#bib.bib21); Hoogeboom et al\.,2021 (https://arxiv.org/html/2606.04236#bib.bib53); Austin et al\.,2021a (https://arxiv.org/html/2606.04236#bib.bib52); Sahoo et al\.,2024 (https://arxiv.org/html/2606.04236#bib.bib8); Müller et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib58)\)。近期大规模掩码 dLLMs,如 LLaDA \(Nie et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib24); Bie et al\.,2025 (https://arxiv.org/html/2606.04236#bib.bib54),2026 (https://arxiv.org/html/2606.04236#bib.bib55)\) 和 Dream \(Ye et al\.,2025 (https://arxiv.org/html/2606.04236#bib.bib25)\),提供了一种与自回归生成相竞争的替代方案。

**针对冻结 dLLMs 的快速解码与提交扩展。** 加速解码的一种方式是每次模型调用预测多个词元。在自回归模型中,投机解码及相关的基于验证的方法提议多个未来词元,并用目标模型并行验证它们 \(Leviathan et al\.,2023 (https://arxiv.org/html/2606.04236#bib.bib45)\)。对于 dLLMs,挑战在于决定哪些掩码位置可以可靠地一起提交。早期方法使用局部不确定性度量(如熵、间隔或置信度)来做出这一选择 \(Ghazvininejad et al\.,2019 (https://arxiv.org/html/2606.04236#bib.bib56)\)。Fast\-dLLM \(Wu et al\.,2025 (https://arxiv.org/html/2606.04236#bib.bib14)\) 将块级 Key\-Value 缓存与一条规则结合:提交边缘置信度超过阈值的位置,以高置信度作为可靠并行提交的代理指标。EB\-Sampler \(Ben\-Hamu et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib15)\) 使用熵界来自适应地选择在每步解除哪些词元以及解除多少个。KLASS \(Kim et al\.,2026b (https://arxiv.org/html/2606.04236#bib.bib16)\) 要求词元的分布在连续去噪步骤中既置信又稳定。LocalLeap \(Kong et al\.,2025 (https://arxiv.org/html/2606.04236#bib.bib18)\) 在局部预测看起来可靠时,通过放松局部窗口内的邻近位置来围绕置信锚点扩展提交。这些方法轻量且无需训练,为在冻结 dLLM 中扩展或接受提交提供了不同的准则。

**依赖感知并行解码。** 近期研究表明,激进的并行解码可能遭受联合不一致性问题,即单独看起来合理的词元在一起提交时变得不兼容 \(Wu et al\.,2025 (https://arxiv.org/html/2606.04236#bib.bib14); Ben\-Hamu et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib15); Zhang et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib59)\)。依赖感知方法通过在解码过程中估计掩码位置之间的交互来解决这一问题。APD \(Israel et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib46)\) 使用辅助自回归模型来估计并行提交词元之间的依赖关系。类似地,DEMASK \(Ringel et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib19)\) 使用一个在隐藏状态上训练的轻量级成对依赖预测器。除了训练模型,其他方法利用已有的注意力图来估计依赖关系。Attn\-Sampler \(Zhou et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib30)\) 使用注意力列和作为排序提交的全局重要性分数。DAPD \(Kim et al\.,2026a (https://arxiv.org/html/2606.04236#bib.bib31)\) 构建注意力诱导的马尔可夫随机场,并以贪心独立集的方式选取每步提交。DAWN \(Luo et al\.,2026 (https://arxiv.org/html/2606.04236#bib.bib17)\) 构建注意力依赖图,并利用已提交的锚点支持相关位置的解码,同时进行冲突感知调度以避免联合更新强耦合位置。这些方法凸显了依赖结构在安全并行提交中的作用,但它们主要使用依赖结构来决定哪些位置应该或不应该一起更新。AXON 则专注于互补问题——锚点选择:识别不仅可靠、而且对剩余不确定位置具有信息价值的置信揭示。

更多相关工作见附录 A (https://arxiv.org/html/2606.04236#A1)。

## 3 背景

扩散语言模型通过逐步解析掩码位置来生成序列。设 $X$ 为提示,$y=(y_1,\ldots,y_L)$ 为待生成的回复,其中每个 $y_i$ 属于离散词表 $\mathcal{V}$。解码从完全掩码的回复开始:

$$y^{(0)}=(\texttt{[MASK]},\ldots,\texttt{[MASK]}),$$

并经过一系列去噪步骤进行推进。在步骤 $t$ 时,当前回复 $y^{(t)}$ 既包含已揭示的词元,也包含仍被掩码的位置。我们将掩码位置的集合记为:

$$M^{(t)}=\{i\in\{1,\ldots,L\}:y_i^{(t)}=\texttt{[MASK]}\}.$$

对于每个 $i\in M^{(t)}$,模型预测词表上的类别分布:

$$p_{\theta}(y_i=v\mid X,y^{(t)}),\quad v\in\mathcal{V},$$

我们将其置信度定义为分配给最可能非掩码词元的概率。解码规则随后选择一个掩码位置子集 $R^{(t)}\subseteq M^{(t)}$ 进行揭示。所选位置以其 top\-1 预测填充,并在后续去噪步骤中保持可见。因此,主要的推理时决策是如何在每一步选择 $R^{(t)}$。

**并行解码。** dLLMs 的优势在于每次前向传播能够揭示多个位置。揭示更多位置可以减少去噪步骤数,但也可能引入错误,因为模型给出的是逐位置的边缘预测,而所选位置之间可能相互依赖。并行解码器实际上依赖于如下近似:

$$p_{\theta}(y_R\mid X,y^{(t)})\approx\prod_{i\in R}p_{\theta}(y_i\mid X,y^{(t)}),$$

对于所选集合 $R$。当 $R$ 中的位置在当前上下文下近似条件独立时,该近似是可靠的。实际上,掩码词元之间可能通过句法、语义、算术约束、格式或多词元实体相互依赖。因此,单独看起来合理的词元,在一起揭示时可能形成不一致的联合赋值。

**符号说明。** 设 $X$ 为条件提示。在给定步骤 $t$ 时,设 $y^{(t)}$ 为已揭示词元的集合,$B^{(t)}$ 为当前解码块中所有词元位置的集合,$M^{(t)}$ 为仍被掩码的位置集合,$U^{(t)}\subseteq M^{(t)}$ 为预测置信度低于……的(*不确定*)位置集合。

相似文章

基于时空并行解码与置信度外推的高效扩散LLMs

arXiv cs.CL

本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。

可学习性引导的扩散语言模型微调

arXiv cs.CL

我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。