通过熵门控连续比特流扩散缩小语言建模中的自回归差距

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文介绍了一种扩散语言模型，将文本视为二进制比特流上的连续过程，利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果，同时降低了内存占用。

arXiv:2605.07013v1 公告类型：新文章摘要：扩散语言模型（DLMs）承诺提供并行且与顺序无关的生成能力，但在标准基准测试中，其样本质量和多样性历史上一直落后于自回归模型。最近在词元嵌入空间上的连续流和扩散方法缩小了这一差距，表明连续状态空间在语言处理中非常有效。在这项工作中，我们通过将文本建模为固定宽度二进制比特流上的连续扩散过程，进一步缩小了自回归差距。我们的方法将语义词元表示为模拟比特序列，并利用匹配滤波器残差参数化，将上下文学习与解析独立比特后验隔离开来。关键的是，我们采用了一种随机采样器，应用由熵率剖面门控的朗之万（Langevin）类型修正，自动将随机性集中在高信息区域，而在其他地方保持近乎确定性。在十亿词基准（LM1B）上，我们的 1.3 亿参数比特流模型在匹配的真实数据熵（4.31）下，使用 256 次神经网络函数评估（NFEs），达到了 59.76 的生成困惑度（$\GenPPL$），决定性地优于先前的 DLM 基线，并达到了自回归参考水平。在 OpenWebText（OWT）上，我们的随机采样器建立了新的连续 DLM 帕累托前沿，在熵为 5.26 时实现 $\GenPPL=27.06$，且使用的步数比之前的 1024-NFE 基线减少了 4 倍。作为一项额外的架构优势，比特流扩散消除了标准 DLMs 共有的 $\mathcal{O}(V)$ 词汇扩展瓶颈。通过语义比特修补预测 $\mathcal{O}(\log V)$ 的比特级 logits，我们的模型实现了更小的内存占用和更高的吞吐量，展示了随着词汇量增长，一种可扩展的语言生成范式。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:42

# 通过熵门控连续比特流扩散缩小语言建模中的自回归差距

来源: https://arxiv.org/html/2605.07013

###### 摘要

扩散语言模型（DLMs）承诺实现并行、与顺序无关的生成，但在标准基准测试中，它们在样本质量和多样性方面历来落后于自回归模型。最近在词元嵌入空间上进行的连续流和扩散方法缩小了这一差距，表明连续状态空间对语言建模非常有效。在这项工作中，我们通过将文本建模为固定宽度二进制比特流上的连续扩散过程，进一步缩小了自回归差距。我们的方法将语义词元表示为模拟比特序列，并利用匹配滤波器残差参数化，将上下文学习与解析的独立比特后验分离开来。关键在于，我们采用了一种随机采样器，该采样器应用由熵率剖面门控的朗之万型（Langevin-type）校正，自动在高信息区域集中随机性，而在其他区域保持近乎确定性。在十亿词基准（LM1B）上，我们的1.3亿参数比特流模型在匹配的真实数据熵（4.31）下，使用256次神经函数评估（NFEs），达到了59.76的生成困惑度（Gen.PPL），显著优于以往的DLM基线并达到了自回归参考水平。在OpenWebText（OWT）上，我们的随机采样器确立了新的连续DLM帕累托前沿，在使用比之前1024-NFE基线少4倍的步数下，在熵为5.26时实现了Gen.PPL=27.06。作为额外的架构优势，比特流扩散消除了标准DLM共有的$\mathcal{O}(V)$词汇表缩放瓶颈。通过语义比特修补（semantic bit-patching）预测$\mathcal{O}(\log V)$的逐比特逻辑回归值，我们的模型实现了更小的内存占用和更高的吞吐量，展示了随着词汇量增长，语言生成的可扩展范式。

††footnotetext:Affiliations.1Department of Engineering, University of Cambridge.2Devotion AI Labs Ltd.3Donders Institute for Brain, Cognition, and Behaviour, Radboud University.

## 1 引言

自回归语言模型主导了现代文本生成，因为它们定义了简单的分解方式并且能够可靠地扩展。它们主要的算法局限性也同样明显：生成本质上是顺序进行的。连续扩散模型已成为高维图像和视频生成的标准框架（Ho et al., 2020; Song et al., 2021; Karras et al., 2022a）。扩散语言模型（DLMs）提供了一种引人注目的计算配置文件，支持所有位置的并行细化、任意填充以及可调节的计算与质量权衡。然而，解锁这些优势证明是困难的。对于语言而言，扩散模型历来在质量和多样性方面与自回归基线存在持续的差距：它们往往产生较弱的样本质量，或者仅通过过度生成安全、高频的词元来获得人为的低生成困惑度（GenPPL），从而降低样本熵。

对此差距的一个常见解释是，语言自然地需要离散扩散。这一观点最近受到基于one-hot词元嵌入的连续流和扩散语言模型的挑战（Roos et al., 2026; Lee et al., 2026; Chen et al., 2026）。这些方法表明，连续模型可以紧密媲美强大的离散基线，表明主要瓶颈不在于连续性本身，而在于状态表示、目标和采样器设计之间的相互作用。本文进一步推动连续扩散范式，以缩小与自回归的差距并确立新的最先进的DLM帕累托前沿。

与在词元嵌入上进行扩散不同，遵循Chen et al. (2023)为多模态生成引入的方法，我们在**比特流**上进行扩散。由$T$个语义词元组成的序列被编码为固定宽度的二进制比特序列，嵌入到连续空间中，并训练一个EDM风格的去噪器从高斯噪声中恢复比特。由于在高斯噪声下孤立比特的后验分布具有已知的解析闭式形式，我们引入了**匹配滤波器残差参数化**：网络解析地计算独立比特后验，并将其全部容量集中在预测上下文残差上。

**随机采样的关键作用。** 虽然比特流表示提供了坚实的基础，但我们最大的经验增益来自采样器。确定性概率流采样器已经可以与最近的连续DLM相竞争，但它过于收缩：它可以通过低估真实数据词元熵来获得良好的GenPPL。我们表明，EDM风格的随机 churn（搅动）纠正了这种行为。当应用于熵率采样网格时，全带 churn 在不改变训练模型或不增加NFE预算的情况下，改善了GenPPL-熵前沿。直观地说，熵率网格在比特不确定性得到解决的地方集中了解算器分辨率，同一网格也使得有效的随机校正在该区域最强。我们在附录D中形式化了这种连续时间解释。

**实证状态。** 如图2所示，全带随机性是我们改进的GenPPL–熵帕累托前沿的主要驱动力。在LM1B上，我们的确定性256-NFE采样器在熵为4.30时达到Gen.PPL=82.90，保持与以往连续DLM的竞争力。应用全带随机性将前沿移至熵为4.31（匹配真实数据熵）时的Gen.PPL=59.76。这比LangFlow报告的Gen.PPL=92.24提高了30多个点，并达到了自回归质量区域，在保持健康词元熵的同时超过了自回归基线的Gen.PPL=66.70。在OpenWebText上，我们的方法同样移动了连续DLM前沿的高质量区域：确定性采样器在熵为5.13时获得Gen.PPL=46.32，而全带随机性将其改善至熵为5.26时的Gen.PPL=27.06。这优于LangFlow在略低熵5.25时的Gen.PPL=36.53，且使用的NFE数为256而非1024。

**额外的计算优势。** 作为一个重要的结构优势，比特流扩散消除了几乎所有DLM共有的词汇表大小输出瓶颈。Simplex、one-hot和离散转换模型从根本上需要每个词元$\mathcal{O}(V)$的输出参数化。通过将$m=\lceil\log_2 V\rceil$个比特修补到单个序列元素中，我们的序列扩散Transformer（SDT）保留了语义上下文长度$T$，同时用紧凑的$\mathcal{O}(\log V)$逐比特头部替换了密集的词表分类器。在LM1B规模上，这种端到端的简化相比匹配的词空间模型，峰值内存减少了1.6倍，训练吞吐量提高了2.3倍。关键在于，随着上下文长度和词汇表规模增长到OpenWebText规模，这些实际增益扩展到训练吞吐量加速3.3倍，生成内存占用减少19倍。这表明，随着序列和词汇表的增长，架构优势变得严格更加有益。

## 2 相关工作

**离散扩散语言模型。** 离散DLM直接在词元或掩码上定义马尔可夫腐蚀过程。D3PM (Austin et al., 2021) 引入了结构化的离散去噪扩散，SEDD (Lou et al., 2023) 通过比率估计和分数熵框架化离散扩散。MDLM (Sahoo et al., 2024) 表明，带有简化目标和改进训练配方的掩码扩散语言建模可以得到实质性加强。Duo (Sahoo and others, 2025) 进一步将统一状态离散扩散与高斯扩散联系起来，并改进了训练和采样。这些方法是自回归语言建模的强基线，但它们仍然局限于类别转换核，并且通常需要针对掩码、吸收状态或统一腐蚀进行单独设计。我们的方法相反，在比特空间使用连续高斯过程，同时最终解码为有效的离散词元。

**用于类别数据的连续扩散。** 几项工作认为，当仔细处理几何时，连续扩散可用于离散变量。Analog Bits (Chen et al., 2023) 将离散变量表示为二进制比特，并在这些比特的模拟版本上训练连续扩散模型；它还引入了自条件化和非对称时间间隔，这两者都影响了我们的设计。CDCD (Dieleman et al., 2022) 使用连续时间和连续状态扩散对类别数据进行建模，并强调类别几何应指导参数化和目标。黎曼扩散语言模型（RDLM）使用统计流形几何对类别分布进行建模 (Jo and Hwang, 2025)。CANDI (Pynadath et al., 2025) 探索了混合离散-连续扩散。我们的贡献在表示上最接近Analog Bits，但在规模、架构、专注语言的评估、匹配滤波器残差参数化、熵率调度以及熵带随机采样方面有所不同。最近，FLM/FMLM (Lee et al., 2026) 和 LangFlow (Chen et al., 2026) 提供了连续语言模型可以媲美离散DLM的最强最新证据。FLM对one-hot词元编码执行连续去噪，并使用交叉熵目标进行训练；FMLM蒸馏流映射以进行少步生成。LangFlow通过Bregman散度将嵌入空间DLM与流匹配联系起来，引入了基于ODE的NLL边界，提出了信息均匀噪声调度原则，并表明自条件化改善了连续DLM。我们的方法验证了同样的广泛论点，即连续生成模型对语言运作良好，但采取了不同的路线。我们使用固定宽度的比特流而不是one-hot词元嵌入，使用二进制分数匹配而不是词元交叉熵作为默认目标，并对比特后验逻辑回归值进行解析匹配滤波器分解。

## 3 方法

文本示例被词元化为$T$个语义词元，并编码为固定宽度的二进制序列 $x_0 \in \{0,1\}^S, \quad S=Tm$，其中$m$是每个词元或码词的比特数。对于LM1B，我们使用$T=128$和$m=15$；对于OpenWebText，我们使用固定的1024码词表示，其中$m=16$。模型从不进行自回归生成：它从高斯噪声初始化一个模拟比特向量，并并行去噪所有位置。图1给出了架构的端到端示意图。

### 3.1 架构示意图

```
Length Tm
Token: “The”    Token: “cat”    ⋯    Token: “sat”
0110...101     001...01        ⋯    0011...11
m=15           m=15            m=15   m=15
Clean Bits x0 ∈ {0,1}^(B×Tm)
0.82 ... -0.14  1.05 ... 0.91   ⋯   -0.22 ... 0.05
Diffused Bits xσ ∈ R^(B×Tm)
Gaussian Corruption ⊕ σε
Patch 1    Patch 2    ⋯    Patch T
Patch Adapter (Linear) → R^(B×T×d)
Time σ & Pos Emb
Sequence Diffusion Transformer Trunk
12 Blocks
|
Processes Semantic Length T
Token Embeddings
Analytic Matched Filter clip(xσ - 1/2 / σ^2)
Optimal Skip MLP (Predicts Residual rθ)
Global Patch
Context B×T
Skip Connection
Local Noisy-Bits +
Total Logit lθ ∈ R^(B×Tm)
```

图1：端到端比特流扩散架构。文本被编码为长度$Tm$的比特流，并通过高斯噪声进行腐蚀。扩散比特$x_\sigma$被修补成语义组，并由长度$T$的Transformer主干处理。与主干并行，一条跳跃连接将原始噪声比特直接路由到头部，在那里上下文残差与解析匹配滤波器结合以产生比特级逻辑回归值。

作为前向过程，我们使用方差爆炸的高斯腐蚀模型：
$$x_\sigma = x_0 + \sigma\epsilon, \quad \epsilon \sim \mathcal{N}(0, I_S), \quad \sigma \in [\sigma_{\min}, \sigma_{\max}]. \quad (1)$$

比特表示为$0/1$值，数据中心$c=1/2$且$\sigma_{\mathrm{data}}=1/2$。去噪器预测逐比特干净概率 $D_\theta(x_\sigma, \sigma) \in (0,1)^S$。这些概率通过高斯后验均值恒等式诱导连续分数估计：
$$s_\theta(x_\sigma, \sigma) = \frac{D_\theta(x_\sigma, \sigma) - x_\sigma}{\sigma^2}. \quad (2)$$

因此，相同的输出定义了离散比特概率，并为连续采样器提供了分数。

### 3.2 匹配滤波器残差参数化

一个核心的建模选择是将局部高斯比特去噪与上下文语言建模分离。对于具有均匀先验$x_0 \sim \mathrm{Bern}(1/2)$且观测值$x = x_0 + \sigma\epsilon$的孤立比特，后验逻辑回归值可解析获得：
$$\ell_{\mathrm{ind}}(x, \sigma) = \log\frac{p(x_0=1 \mid x, \sigma)}{p(x_0=0 \mid x, \sigma)} = \frac{x - \frac{1}{2}}{\sigma^2}. \quad (3)$$

然而，语言建模需要比特、词元和远端位置之间的上下文依赖关系。因此，我们要求网络仅预测上下文残差逻辑回归值$r_\theta$，并将其添加到解析匹配滤波器中：
$$\ell_\theta(x_\sigma, \sigma) = r_\theta(x_\sigma, \sigma, x_{\mathrm{sc}}) + \operatorname{clip}\!\left(\frac{x_\sigma - \frac{1}{2}}{\sigma^2}, -C, C\right), \quad D_\theta = \operatorname{sigmoid}(\ell_\theta). \quad (4)$$

这里$x_{\mathrm{sc}}$是自条件输入，在我们的运行中$C=30$。解析项处理局部高斯比特去噪，而网络专注于比特和词元之间的上下文依赖关系。这是第4.4节中最强的训练侧组件：在固定确定性采样器下，移除它会使LM1B GenPPL恶化超过22个点。方程3的推导...

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

相似文章

LangFlow：连续扩散在语言建模中可与离散扩散相媲美

BitLM：利用位级连续扩散解锁多 Token 语言生成

TextLDM：利用连续潜在扩散进行语言建模

自蒸馏轨迹感知玻尔兹曼建模：弥合扩散语言模型中的训练-推理差异

CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

提交意见反馈