Semantic DLM+:通过转移核设计中的偏差-方差权衡改进扩散语言模型
摘要
本文从偏差-方差角度对扩散语言模型进行了理论分析,识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+,通过添加全局转移和语义频率惩罚来克服语义盆地问题,在LM1B和OpenWebText基准上实现了有竞争力的生成质量。
arXiv:2606.15327v1 公告类型: 新
摘要: 扩散语言模型(DLMs)已展现出作为自回归语言模型替代方案的强大扩展能力。然而,它们的性能对转移核的选择高度敏感,设计不当的核可能导致训练不稳定、收敛缓慢和采样偏差等问题。本文通过泛化误差的原理分析研究了这种敏感性,并识别出三个关键因素:渐近偏差(逼近后验分布的困难)、暴露偏差(采样过程中的误差传播)以及由核离散度引起的优化方差。我们进一步比较了不同的转移核:掩码扩散产生稀疏且更容易逼近后验的目标,而均匀扩散在采样侧提供更强的修复能力但导致更困难的逼近。受此权衡启发,我们重新审视了一个此前被忽视的变体——语义DLM(SemDLM),其转移核将令牌破坏为语义相似的邻域。我们的理论表明,SemDLM可以作为合理的中间选择,通过降低均匀扩散的后验逼近难度同时保留修复能力。然而,我们发现SemDLM存在语义盆地问题,即采样反复停留在某个语义区域内,导致文本多样性低。为解决此问题,我们提出了SemDLM+,它在采样过程中添加了全局转移和语义频率惩罚。在LM1B和OpenWebText上的实验表明,SemDLM+改善了训练动态,并在保持令人满意的多样性的同时实现了有竞争力的语言建模和生成质量。
查看缓存全文
缓存时间: 2026/06/16 11:41
# 语义 DLM+:通过扩散语言模型中转移核设计的偏差-方差权衡改进
来源:https://arxiv.org/html/2606.15327
Keyue Jiang1 3, Yuxiang Wang1 2, Yanan Zhao4, Xiang Yu1 2, Qifang Zhao1, Bohan Tang5, Baojian Zhou2, Yanghua Xiao2, Lin Qu1, Xiaoxiao Xu1
1阿里巴巴集团
2复旦大学
3伦敦大学学院
4南洋理工大学
5牛津大学
###### 摘要
扩散语言模型 (DLM) 已展现出作为自回归语言模型替代方案的强大扩展能力。然而,其性能对转移核的选择高度敏感,设计不当的核可能导致训练不稳定、收敛缓慢和采样偏差等问题。在本文中,我们通过对泛化误差进行原则性分析来研究这种敏感性,并确定了三个关键因素:渐近偏差(近似后验分布的难度)、暴露偏差(采样过程中的误差传播)以及由核分散引起的优化方差。我们进一步比较了不同的转移核:掩码扩散产生稀疏且更易近似后验的目标,而均匀扩散提供更强的采样端修复能力,但导致更难的近似。受此权衡的启发,我们重新审视了一个之前被忽视的变体——语义 DLM (SemDLM),其转移核将词汇破坏为语义相似的邻域。我们的理论表明,SemDLM 可以作为一种合理的中间方案,通过降低均匀扩散的后验近似难度,同时保留修复能力。然而,我们发现 SemDLM 存在语义盆地问题,即采样反复停留在某个语义区域内,产生低多样性的文本。为了解决这个问题,我们提出了 SemDLM+,它在采样过程中增加了全局转移和语义频率惩罚。在 LM1B 和 OpenWebText 上的实验表明,SemDLM+ 改善了训练动态,并实现了具有满意多样性的竞争性语言建模和生成质量。
## 1 引言
扩散语言模型 (DLM) (dream2025; nie2025llada) 已作为自回归语言模型 (ALM) (Dubey2024TheL3; Yang2024Qwen25TR; DeepSeekAI2024DeepSeekV3TR) 的引人注目的替代方案出现,因为它们具有可并行训练和更快的解码速度。DLM 需要设计一个转移核来逐渐将干净数据破坏为噪声,不同的核可能导致截然不同的训练和采样动态。主要的范式是吸收核 (sahoo2024simple; DBLP:conf/nips/ShiHWDT24; ou2025your),因为先前的工作表明掩码 DLM (austin2021structured; hoogeboom2021argmax) 可以有效缓解与其他方法(如均匀、边际和语义邻域扩散 (austin2021structured; hoogeboom2021argmax; DBLP:conf/iclr/SchiffSPWBDARPK25; qin2025defog))相比的收敛缓慢、训练不稳定和弱泛化问题 (wang202610openchallengessteering)。然而,最近的研究表明,当给定足够的数据和训练预算时,均匀 DLM 可以享有更好的扩展能力 (vonruette2025scalingbehaviordiscretediffusion; DBLP:conf/iclr/RutteFDOS025; sahoo2026scalingmaskeddiffusionlanguage; wang2026trainabilitymaskeddiffusionlanguage)。这揭示了一个尚未完全解释的差距:RQ1:为什么均匀扩散在大量资源下扩展良好,而掩码扩散在许多实际场景中仍然更强?能否有一种转移核结合两者的优势?在本文中,我们通过为 DLM 开发一个原则性的误差分析框架来回答这个问题。我们首先将生成误差分解为近似误差、采样误差和前向核失配,然后通过偏差-方差视角将前两者分开。这突出了三个依赖于核的因素:反映近似难度的渐近偏差、衡量反向采样过程中误差累积的暴露偏差,以及捕捉有限资源不稳定性的优化方差。我们的分析揭示了现有范式中的一个权衡:掩码扩散具有更容易拟合的稀疏后验目标,但在采样过程中提供有限的内在修复。均匀扩散具有更密集但更难优化的后验目标,但在采样方面可能更可取,因为其反向动态自然保留了修复早期错误的能力。这种权衡促使我们重新审视一个之前被忽视的变体,即语义扩散语言模型 (SemDLM),其前向核将词汇破坏为语义相关的词汇。SemDLM 在理论上很有吸引力,因为它将后验限制在一个有意义的邻域内,相对于均匀扩散降低了近似难度,同时允许比掩码扩散更丰富的转移。然而,先前的 SemDLM 设计并未持续提供强大的生成性能 (austin2021structured; DBLP:journals/corr/abs-2603-21342)。这引出了我们的第二个问题:RQ2:虽然理论上可行,但为什么 SemDLM 仍然不如现有方法?我们如何将 SemDLM 的理论优势转化为实际收益?在我们的实验中,我们发现了一个“语义盆地”问题:反向采样可能反复生成语义相邻的词汇,产生局部合理但低多样性的文本。这是因为语义似然项和模型的展开诱导偏差可能强化在相同语义簇内的采样。为了解决这个问题,我们提出了 SemDLM+。首先,我们在语义转移核之上添加一个全局转移,以防止采样陷入某些语义邻域。其次,我们在采样过程中引入了一个语义频率惩罚机制,以抵消展开诱导的倾向,即过度产生来自同一语义盆地的词汇。这两种机制共同将 SemDLM 转变为 DLM 的强大变体:比完全均匀扩散更容易训练,但在采样过程中比纯掩码扩散具有更强的可修复性。总结来说,我们的贡献有三个方面。1) 我们为 DLM 提供了一个原则性的误差分析,解释了转移核设计如何影响近似难度、采样动态和有限资源优化。2) 在此分析的指导下,我们开发了一个改进的 SemDLM+,它通过用于采样修复的全局转移和避免语义盆地崩溃的语义频率惩罚来增强 SemDLM。这些设计使 SemDLM 在实践中取得成功,并保留了其高效训练和可靠采样的特性。3) 在 LM1B 和 OpenWebText 上的实验表明,SemDLM+ 改善了训练动态,并实现了强大的语言建模和生成性能,突显了 SemDLM+ 作为 DLM 核设计的一个有前景的方向。
## 2 预知识
我们用 q₀ 表示支撑集 X 上的数据分布,用 q₁ 表示易于采样的参考分布(例如,吸收分布或均匀分布)。在语言建模中,X 表示长度为 L 的序列空间,其中 x = (x^(1), ..., x^(L)) ∈ X := V^L,V 是大小为 |V| = V 的词汇表。扩散模型旨在构建一个概率路径 qₜ,0 ≤ t ≤ 1,使得可以从 q₁ 采样,并通过学习的反向过程将其转换,得到近似遵循 q₀ 的样本。
**作为连续时间马尔可夫链 (CTMC) 的扩散。** 遵循 DBLP:conf/icml/LouME24,我们将构建概率路径的前向噪声过程视为一个 CTMC,其无穷小生成元为 Qₜ,即 dqₜ/dt = Qₜ qₜ,0 ≤ t ≤ 1。可以通过以下方式模拟前向 CTMC:
**通过欧拉采样的前向过程:** q(x_{t+dt} = y | xₜ = z) = δ_{zy} + Qₜ(z, y)dt + O(dt²) (1)
扩散部署一个参数化模型来模拟反向过程,p_θ(x_{t-dt} | xₜ) ≈ q(x_{t-dt} | xₜ),使得可以通过 p_θ(x_{t-dt} | xₜ) 从参考分布到数据分布迭代采样轨迹。DLM 中一个主要使用的参数化是 x-预测 (nie2025llada; dream2025; cheng2025sdarsynergisticdiffusionautoregressionparadigm; liu2025wedlmreconcilingdiffusionlanguage),它构建 p_θ(x₀ | xₜ) 而不是直接近似 q(x_{t-dt} | xₜ) 如下:
p_θ(x_{t-dt} | xₜ) := ∫_{x₀ ∈ X} q(x_{t-dt} | xₜ, x₀) p_θ(x₀ | xₜ) dx₀. (2)
后验为 q(x_{t-dt} | xₜ, x₀) ∝ q(xₜ | x_{t-dt}) q(x_{t-dt} | x₀)。我们注意到局部转移 q_{t|t-dt}、累积前向 q_{t|0} 和生成元 Qₜ 是同一前向过程的等价表示。因此,我们在下文中用 q_{t|0} 和 x-预测来描述该过程。
**训练目标。** DLM 优化负对数似然的变分上界 (ho2020ddpm),-log p_θ(x₀) ≤ ℓ₀ + ℓ_prior + ∑ₜ ℓₜ,其中 ℓₜ = E_{xₜ}[D_{KL}(q(x_{t-dt}|xₜ,x₀) ∥ p_θ(x_{t-dt}|xₜ))],ℓ₀ = E_{q(x_{0:1}|x₀)}[-log p_θ(x_{0:1})],ℓ_prior = D_{KL}(q(x₁|x₀) ∥ p_θ(x₁))。当 dt → 0 时,前两项可以忽略。利用公式 (2),我们可以推导出 D_{KL}(q(x_{t-dt}|xₜ) ∥ p_θ(x_{t-dt}|xₜ)) ≤ D_{KL}(q(x₀|xₜ) ∥ p_θ(x₀|xₜ)) (li2023on),进而得出 DLM 的常见训练目标:
L(θ) = E_{t, x₀, xₜ ∼ q(xₜ|x₀)} D_{KL}(q(x₀|xₜ) ∥ p_θ(x₀|xₜ)). (3)
**采样目标。** 在学习 p_θ(x₀ | xₜ) 之后,合成的数据点 x₀ 通过从诱导的反向核 x_{t-dt} ∼ p_θ(x_{t-dt} | xₜ) 从 t=1 到 0 迭代采样生成。合成样本的质量由生成风险衡量:
R(θ) = D_{KL}(q(x₀) ∥ p_θ(x₀)). (4)
**转移核设计。** 借助 CTMC 框架,我们可以通过其转移核设计来解释 DLM 变体。在本文中,我们主要考虑 q(xₜ|x₀) 的以下变体。
**吸收(掩码)转移** 定义了一个特殊标记 [MASK] 作为吸收状态,使得:
q(xₜ = j | x₀ = i) = αₜ δ_{ij} + (1 - αₜ) δ_{j, [MASK]}, (5)
其中 αₜ 是衰减因子,δ_{ij} 是克罗内克 delta。
**均匀转移。** 均匀扩散将破坏的质量分散到整个词汇表:
q(xₜ = j | x₀ = i) = αₜ δ_{ij} + V^{-1} (1 - αₜ), i, j ∈ V. (6)
**语义转移** 首次在 austin2021structured 中引入,其核定义为:
q(xₜ = j | x₀ = i) = αₜ δ_{ij} + (1 - αₜ) sₜ^{sem}(j|i), (7)
其中语义核最初被设计为在语义簇上的转移,使得 sₜ^{sem}(j|i) = (kₜ)^{-1} I(j ∈ N_{kₜ}(i)),其中 N_{kₜ}(i) 是词汇 i 的前 kₜ 个语义邻居。不幸的是,这种设计存在严重的训练-采样不匹配 (DBLP:conf/iclr/NingLSSE24),导致显著的性能退化。因此,我们可以稍微修改核以确保参考分布在前向和反向过程中匹配。这给出了转移:
sₜ^{sem}(j|i) = exp(τₜ^{-1} sim(i, j)) / ∑_{k∈V} exp(τₜ^{-1} sim(i, k)), (8)
其中 sim(i, j) 是词汇 i 和 j 的嵌入之间的相似度分数;τₜ > 0 是一个温度参数,调度为从 τₜ → 0, t → 0 和 τₜ → +∞, t → 1 单调递增。
## 3 通过偏差-方差权衡对 DLM 进行原则性误差分析
在本节中,我们首先为 DLM 构建一个原则性的误差分析(第 3.1 节),其中我们确定了导致生成误差的几个来源。然后,我们在第 3.2 节中提供了转移核设计对算法行为影响的解释。
### 3.1 DLM 中的误差分析和偏差-方差权衡
我们可以将公式 (4) 中的生成误差分解为(详细证明见附录 B.1):
D_{KL}(q(x₀) ∥ p_θ(x₀)) = Eₜ [ D_{KL}(q(xₜ) ∥ p_θ(xₜ)) ] + (9)
E_{t, xₜ ∼ qₜ} [ D_{KL}(q(x₀|xₜ) ∥ p_θ(x₀|xₜ)) ] - E_{t, x₀ ∼ q} [ D_{KL}(q(xₜ|x₀) ∥ p_θ(xₜ|x₀)) ].
实际上:
1) **近似误差**。第二项是在真实边缘分布 {qₜ} 下的近似误差,即我们在公式 (3) 中的训练目标。
2) **采样误差**。第一项是模型展开 {pₜ} 与真实边缘分布 {qₜ} 之间的时间平均边缘不匹配。
3) **前向路径不匹配**。最后一项是修正项,衡量模型前向相似文章
扩散语言模型:实验分析
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
用于优化离散扩散语言模型的漂移目标
本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。
通过熵门控连续比特流扩散缩小语言建模中的自回归差距
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。
扩散语言模型的动态分块
本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。
TextLDM:利用连续潜在扩散进行语言建模
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。