离散扩散中的支持先于频率

arXiv cs.LG 2026/05/15 04:00 论文

摘要

本文针对离散扩散模型提出了'支持先于频率'假说，认为模型先学习支持（即合法序列），再优化支持内的频率。对小噪声反向核的理论分析以及在掩码语言扩散模型上的实验支持了这一论断。

arXiv:2605.13999v1 公告类型：新摘要：离散扩散模型在语言建模中越来越具有竞争力，但尚不清楚其去噪目标如何组织学习。尽管这些目标针对完整的数据分布，但我们表明，精确的反向过程在粗糙的支持信息和更精细的频率信息之间引入了一个层次结构。对于均匀扩散和吸收扩散（即掩码扩散），我们证明，在最后去噪步骤的小噪声区域中，每个单标记反向编辑分解为一个主导尺度（由是否向数据支持移动决定，例如语法有效的句子）和一个精细系数（决定同一尺度内的相对概率）。因此，恢复合法性结构只需学习反向概率的正确数量级，而恢复数据频率则需要系数级估计。这种分离是机制依赖的：均匀扩散呈现为提升合法性、保持合法性和降低合法性的编辑三分法，而吸收扩散将其主导阶质量置于提升合法性的移动上。在掩码语言扩散模型和合成正则语言任务上的实验支持这些预测：支持定位的出现早于支持内频率排序，并且均匀扩散与吸收扩散之间的对比与预测的速率分离一致。综上，我们的结果表明离散扩散模型先学习数据支持，后学习数据频率。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:26

# 离散扩散中频率之前的支持 来源：https://arxiv.org/html/2605.13999 1苏黎世联邦理工学院计算机科学系瑞士2洛桑联邦理工学院数学研究所瑞士3中央研究院统计科学研究所台湾 ###### 摘要 离散扩散模型在语言建模方面越来越有竞争力，但其去噪目标如何组织学习仍不清楚。尽管这些目标针对完整的数据分布，我们表明精确的反向过程在粗粒度的*支持*信息和更精细的*频率*信息之间引入了一个层次结构。对于均匀扩散和吸收（即掩码）扩散，我们证明，在最终去噪步骤的小噪声区域中，每个单词元反向编辑分解为一个主导尺度（由它是否向数据*支持*（例如，语法有效的句子）移动决定）和一个更精细的系数（决定同一尺度内的*相对概率*）。因此，恢复有效性结构只需要学习反向概率的正确数量级，而恢复数据频率则需要系数级别的估计。这种分离是机制相关的：均匀扩散表现为一个三分法，分为改进有效性、保持有效性和降低有效性的编辑，而吸收扩散将其主导阶质量放在改进有效性的移动上。在掩码语言扩散模型和合成正则语言任务上的实验支持这些预测：支持定位的出现早于支持内频率排序，并且均匀扩散和吸收扩散之间的对比与预测的速率分离相匹配。总之，我们的结果表明，离散扩散模型在学习数据频率之前先学习数据支持。 ### 1 引言 自austin2021structured的开创性工作以来，离散扩散语言模型（DLM）作为自回归模型的一种有前途的替代方案，因其通过并行化实现更快推理的潜力（austin2021structured; wu2025fast; arriola2025block; israel2025accelerating）以及改善的生成可控性（li2022diffusion）而获得了显著关注。这些优势推动了DLM设计和规模的快速进步，最近的模型开始缩小与最先进自回归语言模型的差距（googledeepmind2025geminidiffusion; labs2025mercury; song2025seed）；关于综述，请参见li2025survey。 ##### 中心假设。大多数成功的DLM依赖于反转*均匀*或*吸收*（掩码）扩散过程（austin2021structured）。虽然大量工作研究如何参数化、训练和从这些模型中采样，但我们的关注点不同：我们询问数据分布的何种结构首先被反向去噪问题暴露出来。我们的中心论点是以下内容。 支持先于频率假设：DLM首先学习可接受序列的位置，然后才细化可接受序列之间的相对概率。具体地，记D≔supp(pdata)为总体数据分布的支持集，即pdata下概率非零的序列集合。直观地说，D是可接受序列的集合，例如编程代码生成的上下文无关语言，而频率是分配给字符串x∈D的概率pdata(x)。用这些术语来说，我们的假设表明，DLM首先恢复关于D的支持信息（将在下文精确表述），然后才在D内部准确校准概率pdata(x)。 ##### DLM的小噪声展开。我们的假设源于对*精确*反向核的小噪声分析，该核对应于扩散过程的最终去噪步骤。这个核是标准离散扩散训练目标（austin2021structured）所针对的总体对象。因此，其低噪声结构可能揭示一个跨训练范式的信息层次结构，这些范式逼近真实的反向过程。对于字符串x，令d为汉明距离d(x,z)≔|{i:xi≠zi}|，并令projD(x)≔{z∈D:d(x,z)=d(x,D)}表示x的最近的支撑内字符串的集合。令σ为噪声水平，考虑低噪声极限σ→0⁺。对于从当前字符串到候选字符串的单词元反向编辑，我们的主要定理（定理 2.1 (https://arxiv.org/html/2605.13999#S2.Thmtheorem1) 和 2.2 (https://arxiv.org/html/2605.13999#S2.Thmtheorem2)）表明，反向编辑概率具有以下示意形式（忽略归一化）： 反向编辑概率 ≈ Γcorr(Δd) ⏟ 噪声门 ⋅ σ^{Δd} ⏟ 尺度：支持信号 ⋅ pdata(projD(候选)) / pdata(projD(当前)) ⏟ 系数：频率信号， (⋆) 其中Δd = d(候选, D) - d(当前, D)，因子Γcorr记录了噪声机制的影响： Γcorr(Δd) ≔ { 1, corr=均匀, 1{Δd=-1}, corr=掩码. } 乍看之下，(⋆‣1)似乎将支持信息和频率信息混合在一个主导表达式中。然而，关键在于，*这两部分以不同的分辨率进入，并且噪声机制通过门函数Γcorr决定了哪些尺度是活跃的*。这导致了对实际DLM的两个具体预测，我们在合成数据和真实数据实验中进行了测试。 1. 预测 1：支持先于频率。在低噪声下，恢复*支持改进方向*只需要模型学习相应去噪提议中σ的粗略数量级，以确定它是否朝着支持移动。随着σ→0，这些不同阶变得越来越分离，使得仅从粗略的缩放信息中检测支持结构变得更容易。相比之下，恢复数据分布的*频率*需要在固定数量级内准确估计系数。因此，训练好的模型可能在匹配精细的支持内频率之前获得一个类似支持的去噪场。我们在推论 2.1 (https://arxiv.org/html/2605.13999#S2.Thmcorollary1)中使这一直觉精确化：如果学习到的反向概率近似真实的反向概率，误差为o(σ^{-1/2})，那么对缩放后的反向概率进行阈值化就能精确恢复支持改进方向。重要的是，即使学习到的转移核在加法度量（如总变差或KL）上远离真实核，该条件也可能成立；参见示例 B.1 (https://arxiv.org/html/2605.13999#A2.Thmexample1)以作说明。 2. 预测 2：掩码更接近支持投影器。相同的展开预测了噪声机制之间的定性对比。对于*均匀扩散*，支持改进、支持保持和支持降低的编辑出现在三个不同的尺度：σ^{-1}、1、σ。对于*吸收*或*掩码*扩散，结构更清晰：只有支持改进的非掩码编辑在主导阶贡献，而非改进的移动在小噪声极限下消失。 参照标题 图 1：在网络上训练的掩码 DLM 中的支持先于频率。我们在 FineWeb 上训练了一个掩码 DLM，并评估了受定理 2.2 (https://arxiv.org/html/2605.13999#S2.Thmtheorem2)（第 3.1 节 (https://arxiv.org/html/2605.13999#S3.SS1)）中分离启发的支持和频率代理。支持定位代理达到其峰值增益的时间早于频率排序代理。曲线显示三个种子的均值，带有 ±1 标准差带；转换标记使用第一个达到每个种子峰值增益 90% 的检查点。 第 3.1 节 (https://arxiv.org/html/2605.13999#S3.SS1) 通过设计解耦*支持定位*和*频率排序*的探针来测试预测 1，针对的是在 FineWeb 上训练的掩码 DLM；参见图 1 (https://arxiv.org/html/2605.13999#S1.F1)。这个设置捕获了一个广泛使用的 DLM 家族：一个吸收-掩码过程，用加权交叉熵目标进行训练，这与几种常见的公式（包括 D3PM 风格的后验预测、SUBS/均值参数化和诱导得分视角）相吻合；参见附录 A (https://arxiv.org/html/2605.13999#A1)。跨种子，支持定位探针达到其峰值增益的时间远早于频率排序探针。这个时间上的分离支持我们的假设：尽管训练目标原则上可以同时学习支持识别和频率细化，但支持识别在模型细化支持内相对概率之前出现并稳定。 第 3.2 节 (https://arxiv.org/html/2605.13999#S3.SS2) 测试预测 2，即预测的*均匀*扩散和*吸收*扩散之间的对比。为了隔离投影效应，我们使用了在*正则语言*上受控的合成实验，其中数据支持中的成员资格可以被精确评估。然后我们应用一个理论指导的*推理时阈值化*过程（无需额外训练）来隔离学习到的反向分数的主导σ^{-1}尺度分量。正如预测的，这种干预改善了均匀扩散的支持恢复，但对吸收扩散没有提供额外的好处。这与精确的反向核展开一致：吸收扩散在主导阶已经抑制了非投影移动，而均匀扩散保留了较低尺度的非投影分量，这些分量可以通过隔离主导尺度来移除。 最后，我们强调我们的目的是突出反向动力学中不同的结构性偏差，而不是认可一种噪声过程而非另一种。虽然吸收扩散在小噪声下更接近支持投影器，但掩码也通过阻止错误非掩码的词元被修改来限制采样灵活性。 ##### 贡献。总结起来，我们的主要贡献有三点。首先，在定理 2.1 (https://arxiv.org/html/2605.13999#S2.Thmtheorem1) 和 2.2 (https://arxiv.org/html/2605.13999#S2.Thmtheorem2)中，我们推导了*均匀*和*吸收*扩散的精确反向核的小噪声展开。这些展开识别了支持信息和频率信息之间的尺度分离，并揭示了两种噪声机制之间的鲜明对比。其次，在推论 2.1 (https://arxiv.org/html/2605.13999#S2.Thmcorollary1)中，我们形式化了为什么反向分数的粗略乘法精度足以恢复支持改进方向，即使学习到的反向核在加法度量（如总变差）上远离真实核。第三，在第 3 节 (https://arxiv.org/html/2605.13999#S3)中，我们受理论启发设计了用于支持定位和频率排序的探针，并表明训练后的 DLM 在真实数据和合成实验中均表现出预测的分离。 ##### 与先前工作的关系。在概念上最接近我们假设的视角是最近的观察，即连续得分匹配可能在学习该流形上的完整密度之前恢复数据流形的几何信息 (li2025scores)。我们的工作为离散空间提供了一个离散类似物，没有假设任何潜在的流形结构：环境几何是汉明图，流形的类似物是任意的支持集 supp(pdata)。 ### 2 反向过程生成器的小噪声展开 本节形式化前述精确反向核的小噪声展开 (⋆‣1)。 #### 2.1 均匀和掩码扩散的回顾 我们首先回顾有限状态空间上离散时间扩散模型的标准公式，遵循 austin2021structured。我们的重点是两种与扩散语言建模最相关的噪声机制：*均匀扩散*和*吸收*（即*掩码*）扩散。¹类似的小噪声展开可以推导出其他离散扩散，只需将汉明距离替换为底层扩散图上的适当最短路径距离。我们关注均匀和吸收扩散，因为它们捕捉了当前文本扩散模型中使用的主要设计选择。 ##### 通用设置。我们考虑一个有限的词元空间 [K] ≔ {1, ..., K}，一个固定的序列长度（维度）H，以及所有可能序列的相应集合 X ≔ [K]^H。我们用 T 表示扩散过程的时间范围，意味着生成通过一个 T 步去噪过程完成，时间离散化为 1/T。我们考虑跨词元位置独立的向前扩散过程，通过一个起始离散分布 q0 ≔ pdata ∈ Δ_X（在单纯形上）和马尔可夫核 qt|t-1(xt|xt-1) = ∏_{i=1}^H qt|t-1^i(xt^i|xt-1^i) = ∏_{i=1}^H [Q^t]_{xt-1^i, xt^i}（t∈[T]）给出，其中转移矩阵 Q^t ∈ R^K × R^K 是固定的。对于 t ∈ [T]，我们令 Xt ≔ (Xt^1, ..., Xt^H) ∈ X 表示该过程确定的随机变量。我们简写 qt(xt) ≔ P[Xt=xt] 和 qt|s(xt|xs) ≔ P[Xt=xt|Xs=xs] 对于所有 xt, xs ∈ [K] 且 P[Xs=xs] > 0。 ##### 均匀扩散。对于固定的 q0 = pdata，考虑由下式给出的均匀向前扩散过程： qt|t-1^i(y|x) ≔ (1-β_t) 1{y=x} + β_t/K (均匀)

离散扩散中的支持先于频率

相似文章

面向扩散模型的类频率引导噪声调度

阐明扩散概率模型的SNR-t偏差

扩散模型优先记忆原型样本——或：为何我的扩散模型偏爱“Slop”？

线性约束下的条件扩散：Langevin 混合与信息论保证

频率引导的子频率流形遍历动作扩散

提交意见反馈