扩散大语言模型中面向格式约束生成的动态填充锚点
摘要
本文提出了动态填充锚点(DIA),一种适用于扩散大语言模型的免训练方法。该方法通过动态估计终止锚点位置来强制执行格式约束(如可解析的 JSON、推理模板),同时避免了固定跨度方法的僵硬性。实验表明,DIA 在 GSM8K 和 MATH 基准测试上取得了显著的零样本性能提升。
arXiv:2606.04535v1 公告类型:新论文
摘要:扩散大语言模型(dLLMs)具备双向注意力和并行生成能力,能够利用全局上下文,天然支持可解析 JSON、推理模板等格式约束任务。虽然简单的固定锚点可以强制执行此类约束,但往往会引入固定跨度的限制,导致推理被截断或内容冗余。为解决这一问题,我们提出了动态填充锚点(DIA)——一种免训练方法,能够在迭代填充前动态估计终止锚点位置,从而调整生成长度。这一灵活机制在保证结构正确性和语义连贯性的同时,避免了固定跨度方法的低效问题。在推理基准测试上的实验表明,DIA 显著提升了格式合规性和答案准确率,在 GSM8K 和 MATH 上均取得了可观的零样本性能提升。上述结果表明,DIA 是实现可靠、结构感知生成的有力途径。
查看缓存全文
缓存时间: 2026/06/05 02:15
# 扩散大语言模型中格式约束生成的动态填充锚点 来源:https://arxiv.org/html/2606.04535 Boyan Han¹ Yiwei Wang² Yi Song³ Yujun Cai⁴ Chi Zhang¹ ¹西湖大学 AGI 实验室,中国 ²加州大学默塞德分校,美国 ³Teeni AI,中国 ⁴昆士兰大学,澳大利亚 https://github.com/Westlake-AGI-Lab/DIA boyanhan02@gmail\.com (https://arxiv.org/html/2606.04535v1/mailto:[email protected]) ###### 摘要 扩散大语言模型(dLLMs)具备双向注意力机制与并行生成能力,使其能够利用全局上下文,天然支持格式约束任务,例如可解析的 JSON 生成或推理模板。虽然简单的固定锚点可以强制执行此类约束,但其往往会带来刚性的生成区间,导致推理被截断或输出冗余内容。为克服这一问题,我们提出了动态填充锚点(DIA)——一种免训练方法,能够在迭代填充之前动态估计终止锚点位置,从而调整生成长度。这一灵活机制确保了结构正确性与语义连贯性,避免了固定区间方法的低效问题。在推理基准测试上的实验表明,DIA 显著提升了格式合规率与答案准确率,在 GSM8K 和 MATH 上取得了显著的零样本提升。这些结果证明 DIA 是实现可靠、结构感知生成的有力路径。 动态填充锚点用于扩散大语言模型中的格式约束生成 Boyan Han¹ Yiwei Wang² Yi Song³ Yujun Cai⁴ Chi Zhang¹††thanks: 通讯作者。¹西湖大学 AGI 实验室,中国 ²加州大学默塞德分校,美国 ³Teeni AI,中国 ⁴昆士兰大学,澳大利亚 https://github.com/Westlake-AGI-Lab/DIA boyanhan02@gmail\.com (https://arxiv.org/html/2606.04535v1/mailto:[email protected]) ## 1 引言 参见说明图 1:动态填充锚点(DIA)。(a) 固定位置填充基线。(b) 我们方法 DIA 的总体概览。(c) 扩展与锚点填充步骤的详细示意,包含截断与重掩码操作。 近年来,扩散大语言模型(dLLMs)(Nie et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib25); Ye et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib38); Labs et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib18); Song et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib31); Deepmind, 2024 (https://arxiv.org/html/2606.04535#bib.bib7))凭借其独特的计算机制和广阔的应用潜力,受到了越来越多的关注。与依赖从左到右逐步解码的传统自回归语言模型(AR LLMs)不同,dLLMs 在生成过程中不受单向依赖的限制。相反,它们采用双向注意力机制,使模型能够在每一步中同时利用完整的上下文信息来更新 token 表示。这一机制允许序列中的所有位置并行预测,而非逐步生成,从而大幅提升了建模灵活性与计算效率。除效率提升之外,这种并行性还增强了 dLLMs 的上下文建模能力,使其能够更全面地捕获全局依赖关系。 dLLMs 的全掩码特性提供了一种独特机会,可通过编辑初始化序列直接引入约束。通过预先将特定掩码 token 替换为必要内容,我们可以引导模型生成严格结构化的输出。这促使我们探索格式约束生成(例如可解析的 JSON)。我们在两种场景下评估这一能力:思维-回答任务和 JSON 生成任务。在这两种场景中,现有 dLLMs 通常难以取得令人满意的效果。 为应对上述挑战,一种直接的做法是通过在掩码序列中插入锚点(例如在推理场景中插入,,等)来强制执行结构约束。然而,尽管这一方法看似直观,但也带来了新的挑战。一旦锚点位置提前固定,两者之间的生成空间便变得刚性,迫使模型在预定边界内分配 token。这种刚性可能导致生成空间分配不合理,最终影响输出质量。实际上,当锚点间的固定区间过短时,推理过程往往在完成之前就被截断;而当区间过长时,模型则倾向于产生冗余或重复内容,从而降低效率与可靠性。 为了获得锚点间合适的生成长度,在保证格式正确性的同时维持生成质量,我们提出了一种更灵活的免训练策略,称为**动态填充锚点(DIA)**。我们的方法受到先前 dLLMs 研究(Li et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib20))的启发——该研究表明,模型仅需一步或少数几步预测即可估计终止 token 的位置,从而确定合适的生成长度。我们将这一能力扩展到在内容生成之前预测锚点的合适位置。 具体而言,我们的方法包含两个阶段:(1)通过估计终止锚点位置来调整生成长度;(2)在固定锚点之间进行迭代生成。 第一阶段涉及通过估计终止锚点位置来调整生成空间。在用户提示之后,模型初始化一个相对较短的全掩码序列,作为任务输出长度的起点,并在后续动态扩展。对于思维-回答任务,该掩码序列被均分为两个块,并在每个块的起始处插入对应的起始锚点。随后,我们逐块依次确定锚点位置。在每个块内,模型对预填了起始锚点的序列执行单步预测。若预测未能生成终止锚点,或生成的终止锚点置信度不足,则说明当前生成长度不够。因此,我们通过追加额外的掩码 token 来扩展该块,以确保有足够的内容生成空间,并重复预测步骤。此扩展持续进行,直到模型成功生成有效的终止锚点,或块长度达到上限为止。第一阶段的设计充分利用了模型对生成空间的感知能力;它在保证每个阶段充分分配空间的同时,最大限度地减少了冗余空间和不必要的计算。 第二阶段在锚点固定后执行迭代生成。在前一阶段,我们获得了合理的生成长度并固定了终止锚点的位置。在此基础上,我们生成锚点之间的中间内容。这一步骤有效弥补了单步预测的局限性,帮助模型在不同片段之间建立清晰的语义边界,从而促进连贯的内容生成。 我们在面向推理的基准测试和 JSON 生成基准测试上验证了 DIA 的有效性。在 GSM8K(Cobbe et al., 2021 (https://arxiv.org/html/2606.04535#bib.bib5))(0-shot)和 MATH(Hendrycks et al., 2021 (https://arxiv.org/html/2606.04535#bib.bib15))(0-shot)上的实验结果表明,我们的方法将格式正确率分别从 58.83% 和 29.10% 提升至 **72.63%** 和 **76.82%**。此外,通过更好地控制生成空间,我们的方法将 GSM8K 上的答案准确率从 14.86% 显著提升至 **46.78%**,同时在 MATH 上保持了相当水平(20.08% vs. 21.52%)。此外,我们的方法在 Wikibio(Lebret et al., 2016 (https://arxiv.org/html/2606.04535#bib.bib19))数据集上展现出卓越的稳定性,在各种答案提取方法下均实现了 **79.84%** 的有效 JSON 生成率,且这些有效 JSON 样本中仅有 **0.15%** 存在幻觉内容。这些结果表明,DIA 大幅提升了 dLLMs 在格式约束生成中的可靠性与质量。 综上所述,我们的贡献体现在三个方面: 1. 1\. 我们提出了一种新颖的基于 dLLM 的格式约束生成策略。 2. 2\. 我们设计了一种动态调整机制,能够灵活分配生成空间,缓解固定锚点方法的刚性问题。 3. 3\. 我们将发布代码和相关资源,以促进该新兴领域的可复现性与进一步研究。 ## 2 相关工作 **扩散大语言模型** 语言建模中扩散方法的演进起源于掩码语言模型(Devlin et al., 2019 (https://arxiv.org/html/2606.04535#bib.bib10)),后者为基于去噪的生成奠定了基础。早期的连续空间扩散模型(Jo and Hwang, 2025 (https://arxiv.org/html/2606.04535#bib.bib16))探索了潜在空间映射,但存在解码不稳定的问题。因此,离散空间模型(Austin et al., 2023 (https://arxiv.org/html/2606.04535#bib.bib3))被提出,直接在 token 层面建模扩散过程,并通过 BlockDiffusion(Arriola et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib2))等后续改进进一步提升了生成效率。在规模扩展方面,当前 dLLMs 通常从预训练自回归模型(Gong et al., 2025a (https://arxiv.org/html/2606.04535#bib.bib12); Ye et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib38))初始化,再进行指令对齐(Yang et al., 2025b (https://arxiv.org/html/2606.04535#bib.bib37); You et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib40); Song et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib31))。近期,研究人员进一步引入强化学习(Wang et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib32); Zhao et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib41); Gong et al., 2025b (https://arxiv.org/html/2606.04535#bib.bib13))以增强高级能力,并将 dLLMs 扩展至多模态场景。 **格式约束** 格式约束生成对于语言模型的部署至关重要,直接影响代码生成、结构化输出和推理模板的可解析性与可靠性。现有研究通常在输入侧施加约束(提示词设计(Ye et al., 2024 (https://arxiv.org/html/2606.04535#bib.bib39))和基于示例的引导(Min et al., 2022 (https://arxiv.org/html/2606.04535#bib.bib23))),但在长链式或高复杂度推理下不稳定;输出侧修复(后处理与重排序(Gao et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib11); Zhuang et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib42)))可提升格式合规率,但难以同时保持语义和结构一致性。在任务特定数据上进行微调或强化学习(Song et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib31); Xiong et al., 2023 (https://arxiv.org/html/2606.04535#bib.bib34); Cui et al., 2024 (https://arxiv.org/html/2606.04535#bib.bib6); Yang et al., 2023 (https://arxiv.org/html/2606.04535#bib.bib36))可增强鲁棒性,但成本较高且跨任务泛化能力较弱。基于语法或有限状态机的约束解码(Mündler et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib24); Banerjee et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib4))能够强制保证严格合规,但以牺牲效率和灵活性为代价。 **大语言模型** LLMs 的演进(Yang et al., 2025a (https://arxiv.org/html/2606.04535#bib.bib35); Grattafiori et al., 2024 (https://arxiv.org/html/2606.04535#bib.bib14); DeepSeek-AI et al., 2025 (https://arxiv.org/html/2606.04535#bib.bib9); Anthropic, 2025 (https://arxiv.org/html/2606.04535#bib.bib1); Deepmind, 2025 (https://arxiv.org/html/2606.04535#bib.bib8); xAI, 2025 (https://arxiv.org/html/2606.04535#bib.bib33); OpenAI, 2025 (https://arxiv.org/html/2606.04535#bib.bib26))以规模化法则(Kaplan et al., 2020 (https://arxiv.org/html/2606.04535#bib.bib17))为基础,指导系统性能力提升。在此基础上,上下文学习(ICL)(Min et al., 2022 (https://arxiv.org/html/2606.04535#bib.bib23))得以涌现,使 LLMs 无需显式参数更新即可适应新任务。为增强可用性与人类对齐,训练后技术如微调(Ouyang et al., 2022 (https://arxiv.org/html/2606.04535#bib.bib27))和强化学习(Schulman et al., 2017 (https://arxiv.org/html/2606.04535#bib.bib29); Rafailov et al., 2024 (https://arxiv.org/html/2606.04535#bib.bib28); Shao et al., 2024 (https://arxiv.org/html/2606.04535#bib.bib30))被广泛采用。此外,跨模态对齐(Li et al., 2023 (https://arxiv.org/html/2606.04535#bib.bib21); Liu et al., 2023 (https://arxiv.org/html/2606.04535#bib.bib22))的进展进一步扩展了 LLMs 的通用性,使其能够在文本、视觉和语音领域有效运作。 ## 3 方法 ### 3.1 预备知识 **dLLMs 的推理过程。** 在扩散语言模型(dLLM)的生成阶段,待优化的响应序列通过将输入提示与指定长度的全掩码序列拼接来初始化: $$x_T = [\texttt{prompt}; \texttt{[MASK]}^{\times L}], \tag{1}$$ 其中 $[\cdot;\cdot]$ 表示拼接操作,$L$ 表示最大目标长度。$\texttt{[MASK]}^{\times L}$ 表示重复 $L$ 次的掩码 token 序列,用于与目标格式对齐。 生成过程遵循离散时间掩码扩散流程,可被形式化为马尔可夫链。因此,每次预测步骤仅依赖于前一状态,且在每次迭代中,仅并行更新掩码位置: $$P_{0|t} = \prod_{s=t}^{0} \prod_{i=0}^{L-1} P_{s|s+1}(x_s^i \mid x_{s+1}), \tag{2}$$ $$P_{s|s+1}(x_s^i \mid x_{s+1}) = \begin{cases} 1, & \text{若 } x_{s+1}^i \neq [\text{M}], \\ 1 - \hat{q}, & \text{若 } x_{s+1}^i = [\text{M}] \wedge \hat{q} \text{ 且 } \cdots \end{cases}$$ 在标准扩散语言模型中,生成从全掩码序列 $x_T = [\texttt{prompt}; \texttt{[M]}^{\times L}]$ 开始。在固定位置填充中,我们通过严格指定索引处的 token 值来修改此初始状态: $$x_T^{(i)} = \begin{cases} v_i, & \text{若 } \exists(i, v_i) \in \mathcal{T}, \\ \texttt{[M]}, & \text{否则}, \end{cases} \tag{4}$$ 其中 $x_T^{(i)}$ 表示响应部分第 $i$ 个位置的 token。随后在该部分填充的序列上执行反向扩散过程 $p(x_{t-1} \mid x_t)$。由于锚点位置不可更改,模型仅能在剩余的掩码区间内生成内容,这会导致截断或冗余。这正是我们下面所描述的动态方法的动机所在。 ### 3.2 动态填充锚点 为克服扩散语言模型中直接填充方法灵活性不足的问题,我们提出了 DIA——一种免训练的两阶段方法。DIA 通过单步预测选择合适的终止锚点位置,从而同时保证格式正确性与生成质量。我们方法的总体概览如图 1 (https://arxiv.org/html/2606.04535#S1.F1) 所示。 #### 3.2.1 生成长度……
相似文章
当信心误导:面向扩散语言模型的后缀锚定与锚邻域置信度调制
研究人员提出一种名为“后缀锚定置信度调制”的无训练方法,通过解决EOT标记和过早解码的问题,改进扩散语言模型中基于置信度的解码。
扩散语言模型的动态分块
本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。
通过填充提取扩散语言模型中的训练数据
本文介绍了infilling extraction(填充提取)方法,这是一种通过使用任意二进制掩码从扩散语言模型中提取训练数据的新方法,表明此类模型比之前认为的更容易受到记忆化攻击。
Prefilling-dLLM:扩散语言模型中长上下文推理的预测性预填充
本文提出Prefilling-dLLM,一种无需训练的框架,它将前缀分割成块并缓存KV表示,在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。
# 支持性令牌揭示:用于快速扩散语言模型解码
本文提出了 AXON,一种无需训练的模块,通过智能选择"锚点"(anchor)token 优先揭示,并利用注意力、不确定性和置信度信号来辅助后续去噪步骤,从而改善离散扩散语言模型解码的质量-延迟权衡。在推理和代码生成基准测试上的实验表明,AXON 在保持或提升准确率的同时减少了函数评估次数。