CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

arXiv cs.CL 论文

摘要

CRoCoDiL提出了一种用于语言的连续且鲁棒的条件扩散方法,将掩码扩散模型转移到连续语义空间中,相比LLaDA等离散方法,生成质量更优,采样速度快10倍。

arXiv:2603.20210v3 公告类型:替换 摘要:掩码扩散模型(MDMs)提供了自回归生成的高效非因果替代方案,但由于依赖离散边际分布,往往在处理令牌依赖关系和语义连贯性方面存在困难。我们通过将扩散过程转移到连续的句子级语义空间来解决这些限制。我们提出CRoCoDiL(用于语言的连续且鲁棒的条件扩散),一种统一的微调方法,联合训练编码器-去掩码器架构,将MDM去掩码过程基于连续潜在表示。这导致形成了一种新颖的自编码器,其中解码由MDM算法获得。依靠相同的框架,我们引入了两种无条件文本合成算法:连续-然后-离散(ConThenDisc),一种混合扩散方法,首先在连续空间中生成潜在表示,然后通过MDM将其解码为令牌;以及连续-在-离散中(ConWithinDisc),一种多扩散策略,在离散采样过程中精化潜在表示。使用LLaDA进行的实验表明,我们的方法在无条件设置中实现了优越的生成质量和超过10倍的采样速度提升。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:32

# CRoCoDiL: 连续和鲁棒条件扩散用于语言生成

来源:https://arxiv.org/html/2603.20210

Omer Belhasin、Itay Levy、Akhiad Bercovich、Ran El-Yaniv、Ran Zilbersteinl、Michael Elad、NVIDIA

###### 摘要

掩码扩散模型(MDMs)提供了一种高效的非因果替代方案用于自回归生成,但由于依赖离散边际分布,通常在令牌依赖性和语义连贯性方面遇到困难。我们通过将扩散过程转移到连续句子级语义空间来解决这些限制。我们提出**CRoCoDiL**——连续和鲁棒条件扩散用于语言——一种统一的微调方法,联合训练编码器-脱掩码器架构,在连续潜在表示中使MDM脱掩码有基础。这导致形成一个新颖的自编码器,其中解码由MDM算法获得。基于相同的框架,我们继续引入两种**无条件**文本合成算法:连续-后离散(*ConThenDisc*),一种混合扩散方法,首先在连续空间中生成潜在表示,然后通过MDM将其解码为令牌;以及连续-内离散(*ConWithinDisc*),一种多扩散策略,在离散采样过程中精化潜在表示。使用LLaDA的实验表明,我们的方法在无条件设置中实现了优越的生成质量和超过10倍的更快采样速度。机器学习,ICML

## 1 引言

基于扩散的自回归大型语言模型替代方案最近吸引了很多关注(Li等人,2022;Yi等人,2024)。这类方法包含了破除自回归机制的因果、逐令牌范式的吸引力,其一般目的是实现更快且改进的文本合成质量。将扩散模型应用于文本的主要挑战是经典扩散算法的连续表述和语言的离散性质之间的明显差距(Lou等人,2024)。早期工作以多种方式解决了离散-连续的差距;其中最常用的是基于**掩码扩散模型**(Sahoo等人,2024;Nie等人,2025;Ye等人,2025)。这些算法的广泛范围依赖于一个前向退化过程,逐渐掩码令牌,直到整个序列被掩码。文本生成基于反向过程,其中脱掩码器迭代恢复令牌,构成**掩码扩散模型**(MDMs),如MDLM(Sahoo等人,2024)、LLaDA(Nie等人,2025)、Dream(Ye等人,2025)及其许多后续工作(例如Arriola等人,2025a;Wu等人,2025;Liu等人,2025b、c)。

MDMs依赖于在部分掩码序列上训练的脱掩码模型,以估计缺失令牌的离散逻辑,表示一维边际分布,缺少令牌之间统计交叉依赖的信息。当从这些逻辑中采样时,并行揭示多个令牌必然会产生有缺陷的样本,降低生成质量(Liu等人,2025a)。尽管如此,由于合成速度取决于并行令牌采样,现有算法会降低质量以换取速度。MDM算法的另一个相关但不同的弱点涉及其核心**工作方式**——通过按顺序采样单个令牌(分别或联合)构造生成的文本,并且它们被提交为最终序列的一部分。虽然由于其与自回归策略的相似性很有吸引力,但由于没有全局指导驱动总体合成,MDM必然在形成连贯的最终句子时苦苦挣扎。

在本文中,我们提出了MDM的一种新颖扩展,解决了这些限制。我们的方法在连续统中操作,使用连续扩散模型生成句子级语义表示,而MDM算法作为解码器将这些潜在向量转换为令牌序列。这样,捕捉长范围交叉令牌结构的负担被转移到潜在空间中的轻量级经典扩散。这种表示随后被用于指导MDM进行令牌解码,通过在文本合成中产生更好的效率-质量权衡来实现有效的多令牌采样。我们将这种方法命名为**CRoCoDiL**:连续和鲁棒条件扩散用于语言。

![图1:CRoCoDiL框架](https://arxiv.org/html/2603.20210#S1.F1)

**图1**:**CRoCoDiL**框架:基于文本序列的学习编码器和由此连续表示指导的脱掩码器,我们引入(a)自编码器和(b、c)两个文本生成算法,*ConThenDisc*和*ConWithinDisc*。常规MDM在所有情况下都作为解码器,将潜在向量z₀转换为序列x̂₀。文本生成算法依赖于在表示域中操作的学习扩散模型。

基于这个框架,我们引入了一个统一的编码器-脱掩码器训练方案,将序列编码为潜在表示以进行有效的令牌解码。我们随后提出两个文本合成算法:(1) 连续-后离散(*ConThenDisc*),通过连续扩散生成嵌入并使用MDM将潜在向量解码为令牌;(2) 连续-内离散(*ConWithinDisc*),在脱掩码步骤期间使用连续扩散训练的指导向量更新来从部分掩码序列恢复有效的潜在向量。我们强调提议的算法专注于无条件文本生成,将条件合成跨基准留给未来工作。

我们使用LLaDA-8B(Nie等人,2025)作为基础MDM和Qwen-embedding-0.6B(Ren等人,2025)作为初始编码器进行了广泛的实验研究,所有这些都使用我们的解码器-脱掩码器框架联合再训练。我们首先通过自编码验证连续指导对MDM的有效性,展示忠实重建。然后我们评估两个提议的无条件代码合成算法,显示我们的方法在不损失质量的情况下实现了更快的采样。

总结起来,以下是本工作的主要贡献,如图1所示:

- •我们提出**CRoCoDiL**,一个使用连续句子级语义指导指导离散MDM的框架,在全局连贯性和局部令牌依赖之间架起桥梁,从而实现忠实的并行令牌采样。
- •我们引入一个通用自编码器,准确地将序列映射到连续统及返回,依靠MDM作为解码器。
- •因此,提出两个文本合成算法:*ConThenDisc*和*ConWithinDisc*,两者都将核心生成过程转移到连续句子级语义空间,作为MDM的全局草图指南。
- •我们展示了在无条件文本生成设置中使用LLaDA的优越生成质量和采样速度以及显著收益。

## 2 相关工作

在附录A中,我们提供了关于文本生成扩散模型领域的广泛概述。在本节中,我们深入探讨与本文贡献直接相关的具体最新工作。

Meshchaninov等人(2025)报告的工作提出了COSMOS,一种基于连续潜在空间扩散的语言生成算法。虽然与我们工作的主题相似,COSMOS与其有实质区别。特别是,在COSMOS中将嵌入转换为令牌的解码器不具备生成能力,这意味着潜在表示必须完全信息丰富才能实现正确的文本合成。相比之下,我们的潜在表示作为草图指南,条件化一个迭代的基于MDM的解码过程,因此即使是部分信息丰富的表示也可以导致有效且高质量的生成文本,因为MDM补充并精化合成过程。实际上,根据COSMOS与我们范式之间主要对比的精神,Morris等人(2023)的工作论证,当使用嵌入表示时,解码必须以迭代方式而非单步执行,这支持我们提议的连续和MDM的融合。尽管如此,Morris等人(2023)与我们的工作不同,因为它专注于文本纠正任务而非其生成。

另一项相关工作报告在Arriola等人(2025b)中,提出了一个自编码框架,称为E2D2。在条件合成设置中,其中模型接收提示并需要提供答案,E2D2将提示编码为连续向量并使用它来指导完全离散的MDM解码器来构造响应。由于答案的合成依赖于普通MDM,不考虑统计交叉令牌依赖——这是我们在这项工作中解决的问题。

Liu等人(2025a)、Xu等人(2025)和Xie等人(2025)报告的算法解决了MDM中的联合令牌采样问题,与我们的工作相同。第一个通过结合Copula模型处理缺失的依赖,第二个用学习能量模型增强脱掩码器,第三个引入高斯分布的潜在变量来解释令牌依赖。所有这些都专注于小规模基础模型以改进文本合成速度或质量。

朝向同一目标的相关但不同的推理线出现在Azangulov等人(2025)和Luxembourg等人(2025)中,提出了推理专用策略来优化未掩码令牌的顺序,以避免太相关的令牌被联合采样。这些方法本质上受限,因为它们寻求弱相关令牌,这不一定存在。此外,这些推理算法与其基础模型紧密耦合,以小块大小半自回归操作,从而限制其可达成的收益。

与上述相比,我们的工作旨在充分利用扩散模型在语言中的潜力,旨在超越MDM的速度和文本质量障碍。这通过向MDM注入信息指导来实现,使其能够处理交叉令牌依赖,同时也为要生成的文本提供合成草图。

## 3 问题表述和背景

设 **x** = (x¹, x², ..., xⁿ) 为n个令牌的离散随机向量,其中每个xⁱ属于词汇表V。我们假设文本序列从未知联合数据分布q_data采样,我们的目标是学习一个能够从q_data合成样本的生成模型。遵循最近关于离散扩散方法的工作,我们采用掩码扩散建模(MDM)框架。我们使用特殊掩码令牌[M]增强词汇表,并定义完全掩码向量为 **m** = (m¹, m², ..., mⁿ),其中 mⁱ := [M] 对所有 i。

生成算法以逐渐降级干净序列的前向扩散过程开始。在MDM中,这通过跨令牌因式分解的渐进式掩码进行:

q(**x**_t|**x**_0) = ∏ᵢ₌₁ⁿ q(x_t^i|x_0^i)  (1)

其中每个 q(x_t^i|x_0^i) 定义一个独立的分类腐蚀过程,在干净样本 **x**_0 ~ q_data 和掩码向量 **m** 之间插值:

q(x_t^i|x_0^i) := α_t **e**_{x_0^i} + (1-α_t) **e**_{[M]}  (2)

这里,α_t ∈ [0,1] 是关于时间 t ∈ [0,1] 的严格递减噪声时间表,α₀ ≈ 1 且 α₁ ≈ 0。记号 **e**_j 表示第j个词汇索引的独热编码。

通过反转上述前向过程实现生成采样。对于任何时间步对 0 ≤ s < t ≤ 1,反向步可以写成:

**x**_s ~ q(**x**_s|**x**_t, **x**_0)  (3)

#### 4.3.2 连续-内离散

算法2中的一个微妙弱点(因此是未开发的机会)是指导向量在T次迭代中保持固定,即使序列**x**_t可用,提供关于要创建的文本的额外但部分信息。*ConWithinDisc*算法旨在通过在MDM步骤内更新指导向量来利用这个机会。更具体地,在每个脱掩码步骤中,指导向量可以通过从条件分布 **z**_0 ~ P(**z**|h_φ(**x**_t)) 中抽样来更新。换句话说,指导向量被锐化以考虑当前持有的时间序列**x**_t。

算法3提供了这个变体的描述,图3展示了*ConThenDisc*和*ConWithinDisc*,突出了它们的区别。几点说明如下:

(i) **z**_0的更新可以在总体T步的预选子集中完成,以便从改进的指导中受益同时减少生成算法的整体复杂性;

(ii) 在绘制指导向量时,我们提出的条件依靠**嵌入**部分掩码序列**x**_t,即**z**_0 ~ P(**z**|h_φ(**x**_t))。相反,我们可能直接在**x**_t上条件化分布;

(iii) 在训练条件扩散(算法4)时,我们使用h_φ(**x**_t)来嵌入部分掩码句子。然而,这个编码器没有针对此类掩码内容进行训练。一个改进的策略是定义第二个编码器h_μ(**x**_t)...

相似文章

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。

连续潜在扩散语言模型

Hugging Face Daily Papers

Cola DLM 是一种分层潜在扩散语言模型,它通过文本到潜空间的映射以及条件解码,实现高效且非自回归的文本生成。

改进的大型语言扩散模型

arXiv cs.CL

iLLaDA是一个80亿参数的掩码扩散语言模型,具有完全双向注意力机制,从头开始在12万亿token上训练。与LLaDA相比,它在多个方面都有显著改进,并在多个基准测试上与Qwen2.5 7B保持竞争力。模型和代码已开源。