TUBE: 离散扩散语言模型证据的切线上界

arXiv cs.LG 2026/05/26 04:00 论文
摘要
介绍TUBE，一种用于离散扩散语言模型的对数似然变分上界，实现更好的评估，并揭示掩码扩散模型仍不如自回归模型。
arXiv:2605.24292v1 公告类型：新摘要：对数似然是评估生成模型的标准指标。然而，与自回归模型（ARMs）不同，离散扩散模型通常无法精确计算该量。因此，现有评估依赖于证据下界（ELBO），使得真实值可能高出多少尚不清楚。我们通过引入证据的切线上界（TUBE）来解决这一问题，这是一种对数似然的变分上界，并具有无偏蒙特卡洛估计量。我们的TUBE适用于潜变量模型，包括掩码扩散模型（MDMs）、任意阶自回归模型（AO-ARMs）及其块变体。应用于块MDMs和块AO-ARMs时，TUBE揭示了我们的关键实证发现：这些模型严格低于精确ARM基线，表明ARMs在似然性上仍占主导地位。
查看原文
查看缓存全文
缓存时间: 2026/05/26 09:03
# 离散扩散语言模型证据的切线上界  
来源：https://arxiv.org/html/2605.24292  

Arseny Ivanov¹,²,³，Sergei Kholkin²，Vladislav Gromadskii²，Grigoriy Ksenofontov²,⁴，Ivan Oseledets¹,²，Alexander Korotin²,¹  

###### 摘要  

对数似然是评估生成模型的标准指标。然而，与自回归模型（ARMs）不同，离散扩散模型通常无法精确计算该量。因此，现有评估依赖证据下界（ELBO），导致真实值可能高出多少尚不清楚。我们通过引入**证据的切线上界**（TUBE）来解决这一问题，这是一个对数似然的变分上界，允许无偏蒙特卡洛估计。我们的TUBE适用于潜变量模型，包括掩码扩散模型（MDMs）、任意阶ARM（AO-ARMs）以及两者的块变体。将TUBE应用于块MDMs和块AO-ARMs，我们的关键实证发现表明，这些模型严格低于精确ARM基线，表明ARMs在似然方面仍占主导地位。  

††footnotetext:¹AXXX, 俄罗斯；²俄罗斯应用人工智能研究所；³俄罗斯高等经济大学；⁴MIRAI, 俄罗斯。  
∗通讯作者：Arseny Ivanov, Alexander Korotin  

参照图 caption  
图1：关于 \(\log p_{\mathrm{model}}(x)\) 的紧切线上界。我们的TUBE使用可处理代理 \(\psi\) 从上方界定难处理的边际，当 \(\psi = p_{\mathrm{model}}\) 时等式成立。  

## 1 引言  

*自回归模型*（ARMs）仍是语言建模的核心范式，在大规模设置中展现出强大的经验缩放行为（Kaplan et al., 2020 (https://arxiv.org/html/2605.24292#bib.bib18); Hoffmann et al., 2022 (https://arxiv.org/html/2605.24292#bib.bib14)）。然而，这种效率源于强加固定的自回归分解，使得生成本质上依赖于顺序。同时，最优顺序通常取决于领域和任务，学习或替代顺序在实践中可能优于标准固定选择（Li et al., 2021 (https://arxiv.org/html/2605.24292#bib.bib24); Wang et al., 2025b (https://arxiv.org/html/2605.24292#bib.bib49)）。这激发了对*任意阶自回归模型*（AO-ARMs）（Uria et al., 2014 (https://arxiv.org/html/2605.24292#bib.bib46); Shih et al., 2022 (https://arxiv.org/html/2605.24292#bib.bib43)）及相关*掩码扩散模型*（MDMs）（Austin et al., 2021 (https://arxiv.org/html/2605.24292#bib.bib3); Shi et al., 2024 (https://arxiv.org/html/2605.24292#bib.bib42); Sahoo et al., 2024 (https://arxiv.org/html/2605.24292#bib.bib37)）的日益增长的研究工作，两者都用概率性的生成顺序族取代了单一固定分解。尽管理论构造不同，AO-ARMs和MDMs都通过反复随机选择标记位置并填充相应值来超越从左到右的顺序。MDMs进一步扩展了这一过程，允许在单步中生成多个标记，从而实现更快的推理。除了这些完全随机排序方案，块式生成提供了一种混合替代方案（Arriola et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib2)），在块上使用固定自回归顺序，在块内使用随机顺序。这保留了块级自回归结构，支持KV缓存等技术。总之，这些特性使AO-ARMs和MDMs成为严格自回归生成的有效替代方案。更广泛地说，两者都已应用于标准从左到右语言建模之外的其他离散领域，包括图像（Pang et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib32); Austin et al., 2021 (https://arxiv.org/html/2605.24292#bib.bib3)）、图（Kelvinius and Lindsten, 2024 (https://arxiv.org/html/2605.24292#bib.bib20); Seo et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib40)）、分子序列（Lee et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib23)）和向量量化图像表示（Gu et al., 2022 (https://arxiv.org/html/2605.24292#bib.bib11)）。在语言建模中，近期大规模MDMs已被证明在生成质量上与ARMs具有竞争力（Nie et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib28); Bie et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib4); Ye et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib50); Karimi Monsefi et al., 2026 (https://arxiv.org/html/2605.24292#bib.bib19)）。  

同时，对此类模型的严格评估需要**对数似然**，它仍是分布拟合的规范度量。虽然ARM允许精确对数似然评估，但对于AO-ARM和MDM，该量通常是棘手的。取而代之的是使用*证据下界*（ELBO）或相关近似（Sahoo et al., 2024 (https://arxiv.org/html/2605.24292#bib.bib37); Haxholli et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib12); Jeon et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib16)）。然而，ELBO并未指示真实对数似然可能高出多少。因此，仅基于ELBO的评估无法可靠评估AO-ARM和MDM的似然，也无法支持与ARM基线的严格比较。近期工作使这一问题在MDM及更广泛的潜变量模型类别中变得愈加明确。对于MDM，精确对数似然评估仅在特殊情况下可用，例如确定性解掩码（Turok et al., 2026 (https://arxiv.org/html/2605.24292#bib.bib45)），而近期工作也提出了上界估计器（Wang et al., 2026 (https://arxiv.org/html/2605.24292#bib.bib47)）。同时，变分推断文献已开发出用于估计一般潜变量模型对数似然的上界方法（Dieng et al., 2017 (https://arxiv.org/html/2605.24292#bib.bib9); Struski et al., 2023 (https://arxiv.org/html/2605.24292#bib.bib44)）。然而在实践中，精确方法仅适用于狭窄的固定顺序设置，而上界估计器由于在蒙特卡洛近似后应用非线性函数会产生偏差，因此难以可靠使用。这留下了AO-ARM和MDM的可靠有限样本对数似然估计问题，我们将在本文中解决。  

我们的**贡献**如下：  

- **方法**。我们提出**证据的切线上界**（TUBE），这是一个对数似然的变分逐点上界，具有可处理代理和无偏蒙特卡洛估计器（§3 (https://arxiv.org/html/2605.24292#S3)）。与ELBO一起，TUBE提供了对数似然的两侧定位。  
- **分析**。我们评估了预训练的块AO-ARM和MDM，并相对于标准ARM基线识别出清晰的经验似然差距（§5 (https://arxiv.org/html/2605.24292#S5)）。  

**记号**。我们用 \(\mathcal{V}=\{1,\ldots,V\}^L\) 表示长度为 \(L\) 的标记序列空间，\(x=(x^1,\ldots,x^L)\in\mathcal{V}\) 表示数据样本。我们用 \(p\) 表示分布，必要时用下标指示相应分布，例如 \(p_{\mathrm{model}}\)。生成顺序记为 \(\pi\)。用 \(\mathcal{S}\) 表示单标记顺序，其中每一步揭示一个位置；\(\mathcal{G}\) 表示分组顺序，其中一步可能揭示多个位置。对于步骤 \(t\in\{1,\dots,T\}\) 中的索引集 \(\pi_t\)，\(x^{\pi_t}\) 表示 \(x\) 在 \(\pi_t\) 位置处的标记，且 \(\pi_{<t}:=\bigcup_{s=1}^{t-1} \pi_s\) 表示在步骤 \(t\) 之前已揭示的位置。对于块模型，我们用 \(n\) 表示块的数量。我们用 \(\#(\pi_t)\) 表示在步骤 \(t\) 揭示的位置数量；在单标记情况下，\(\#(\pi_t)=1\) 对所有 \(t\) 成立且 \(T=L\)。对于单调顺序，步长向量 \(s=(s_1,\dots,s_n)\) 表示每个块的大小；也常用于简单自回归顺序（即标准从左到右 ARM），此时 \(s_1=n\)。  

## 2 背景：基于顺序的离散生成模型  

我们回顾两类允许灵活生成顺序的离散语言模型：任意阶自回归模型（AO-ARMs）和掩码扩散模型（MDMs）。每个模型族都定义了一个潜变量模型，其中对数似然 \(\log p_{\mathrm{model}}(x)\) 是难以处理的，但可以通过自回归条件概率的期望来评估。  

### 2.1 任意阶自回归模型（AO-ARMs）  

AO-ARM（Uria et al., 2014 (https://arxiv.org/html/2605.24292#bib.bib46)）定义了一个潜变量模型，其中潜变量是序列长度 \(L\) 的概率性单标记顺序 \(\pi\)。顺序 \(\pi = (i_1, \dots, i_L)\) 是一个排列，\(\pi_{<t} = \{i_1, \dots, i_{t-1}\}\) 是先前揭示的位置，\(\pi_t\) 是在步骤 \(t\) 揭示的单个位置。模型定义为  

\[
p_{\mathrm{model}}(x) = \mathbb{E}_{\pi \sim p(\pi)} \left[ \prod_{t=1}^L p_{\mathrm{model}}(x^{\pi_t} | x^{\pi_{<t}}) \right],
\]

其中 \(p(\pi)\) 是顺序上的先验分布，通常在 \(L!\) 个可能的排列上均匀分布。对于给定的 \(x\)，顺序特定似然 \(p_{\mathrm{model}}(x|\pi)\) 可以精确计算，但边际 \(p_{\mathrm{model}}(x)\) 涉及对指数级顺序求和。  

### 2.2 掩码扩散模型（MDMs）  

MDM（Austin et al., 2021 (https://arxiv.org/html/2605.24292#bib.bib3); Shi et al., 2024 (https://arxiv.org/html/2605.24292#bib.bib42); Sahoo et al., 2024 (https://arxiv.org/html/2605.24292#bib.bib37)）通过允许在每一步揭示多个位置来推广AO-ARM。在MDM中，潜变量是分组顺序 \(\pi = (\pi_1, \dots, \pi_T)\)，其中 \(T \leq L\) 是步数，\(\pi_t\) 是在步骤 \(t\) 揭示的位置集合。\(\{\pi_t\}_{t=1}^T\) 形成一个分区：\(\bigcup_{t=1}^T \pi_t = \{1,\dots,L\}\) 且 \(\pi_t \cap \pi_s = \varnothing\) 对 \(t \neq s\) 成立。分组顺序上的分布 \(p(\pi)\) 定义了揭示方案，自然产生于向马尔可夫链中添加掩码标记 \([M]\) 的扩散过程。模型为  

\[
p_{\mathrm{model}}(x) = \mathbb{E}_{\pi \sim p(\pi)} \left[ \prod_{t=1}^T p_{\mathrm{model}}(x^{\pi_t} | x^{\pi_{<t}}) \right].
\]

同样，边际 \(p_{\mathrm{model}}(x)\) 在计算上是难处理的。  

### 2.3 块变体  

更近期的块变体（Arriola et al., 2025 (https://arxiv.org/html/2605.24292#bib.bib2); Wang et al., 2025a (https://arxiv.org/html/2605.24292#bib.bib48)）引入了一个两级顺序：首先，一个固定的自回归顺序决定块 \(B_1, \dots, B_n\) 的顺序；然后，在每个块内部应用一个独立随机顺序。具体来说，对于AO-ARM情况，模型在分解后变为  

\[
p_{\mathrm{model}}(x) = \mathbb{E}_{\pi_1, \dots, \pi_n} \left[ \prod_{k=1}^n p_{\mathrm{model}}(x^{B_k, \pi_k} | x^{B_{<k}}) \right],
\]

其中 \(\pi_k\) 是块 \(k\) 内部的排列，\(B_{<k} = \bigcup_{i=1}^{k-1} B_i\)。在这种情况下，期望是对所有块内部顺序的乘积进行的；对于MDM，结构类似但允许块内部包含多个揭示位置。  

## 3 切线上界（TUBE）  

我们提出**切线上界**（TUBE），一个在任意点上提供对数似然紧上界的变分公式。TUBE基于切线不等式：  

\[
\log a \leq \log b + \frac{a - b}{b}, \quad \forall a, b > 0. \tag{8}
\]

该上界以 \(b\) 作为变分变量，允许我们为每个 \(a = p(x)\) 单独构造 \(\log p(x)\) 的线性上界。  

**定义 3.1（证据的切线上界）**。考虑正函数 \(p(x)\) 和 \(\psi(x)\)，其中对于每个 \(x \in \mathcal{X}\)，\(p(x), \psi(x) > 0\)。以下变分上界成立：  

\[
\log p(x) \leq \mathrm{TUBE}_\psi(x) := \log \psi(x) + \frac{p(x) - \psi(x)}{\psi(x)}, \tag{9}
\]

其中函数 \(\psi(x)\) 是一个辅助函数，当且仅当 \(\psi(x) = p(x)\) 时等号成立。  

该上界基于对数线性化，允许线性化 \(p(x)\) 项，这在 \(p(x) = \mathbb{E}_\pi[p(x|\pi)]\) 类型的潜变量模型（见 §2）中，允许对该上界进行无偏蒙特卡洛估计（见下文 §3.2）。引入的函数 \(\psi(x)\) 称为**代理**，可以是任意正函数，TUBE的紧度取决于 \(\psi(x)\) 接近 \(p(x)\) 的程度。由于TUBE是一个上界，将其与任何下界（如ELBO或其多样本扩展 \(\mathrm{ELBO}_K\)）结合，可以为任意 \(\psi\) 提供 \(\log p(x)\) 的群体两侧定位：  

**对数似然的两侧定位**  

\[
\mathrm{ELBO}(x) \leq \log p(x) \leq \mathrm{TUBE}_\psi(x). \tag{10}
\]

### 3.2 AO-ARM和MDM的TUBE估计  

**蒙特卡洛估计**。虽然TUBE可以应用于任何潜变量模型 \(p(x) = \mathbb{E}_z[p(x|z)]\)，例如VAE（Kingma and Welling, 2013 (https://arxiv.org/html/2605.24292#bib.bib22)）或DDPM（Ho et al., 2020 (https://arxiv.org/html/2605.24292#bib.bib13)），我们的工作重点是将TUBE应用于AO-ARM（Hoogeboom et al., 2022 (https://arxiv.org/html/2605.24292#bib.bib15)）和MDM（Sahoo et al., 2024 (https://arxiv.org/html/2605.24292#bib.bib37)）模型。考虑模型 \(p_{\mathrm{model}} = \mathbb{E}_\pi[p_{\mathrm{model}}(x|\pi)]\) 及其蒙特卡洛近似似然，然后我们可以为 \(\mathrm{TUBE}_\psi\) 构造一个**无偏估计器**：  

\[
\widehat{\mathrm{TUBE}_{\psi,K}}(x) := \log \psi(x) + \frac{\widehat{p}_{\mathrm{model},K}(x) - \psi(x)}{\psi(x)}, \quad \widehat{p}_{\mathrm{model},K}(x) := \frac{1}{K} \sum_{k=1}^K p_{\mathrm{model}}(x|\pi^{(k)}), \tag{11}
\]

其中 \(\pi^{(1)}, \dots, \pi^{(K)} \overset{\mathrm{i.i.d.}}{\sim} p(\pi)\)。这种直接构造无偏估计器的可能性是我们上界的核心特性之一。这与CUBO（Dieng et al., 2017 (https://arxiv.org/html/2605.24292#bib.bib9)）或TVO（Masrani et al., 2019 (https://arxiv.org/html/2605.24292#bib.bib27)）等其他上界形成对比，后者估计是有偏的，见表1 (https://arxiv.org/html/2605.24292#S4.T1) 及 §4 (https://arxiv.org/html/2605.24292#S4) 中的讨论。  

具体来说，对于AO-ARM情况，蒙特卡洛 \(\widehat{p}_{\mathrm{model},K}(x)\) 的形式为：  

\[
\widehat{p}_{\mathrm{model},K}(x) = \frac{1}{K} \sum_{k=1}^K \left[ \prod_{t=1}^L p_{\mathrm{model}}(x^{\pi_t^{(k)}} | x^{\pi_{<t}^{(k)}}) \right],
\]  

其中 \(\psi(x) > 0\) 是确定性的。回顾 \(\mathrm{TUBE}_\psi(x)\) 的蒙特卡洛估计器：  

\[
\widehat{\mathrm{TUBE}_{\psi,K}}(x) := \log \psi(x) + \frac{\widehat{p}_{\mathrm{model},K}(x) - \psi(x)}{\psi(x)}, \quad \widehat{p}_{\mathrm{model},K}(x) := \frac{1}{K} \sum_{k=1}^K p_{\mathrm{model}}(x|\pi^{(k)}), \tag{16}
\]

那么，对于每个 \(K \geq 1\) 和 i.i.d. 的 \(\pi^{(1)}, \dots, \pi^{(K)}\)：  

\[
\mathbb{E}_{\pi^{(1:K)}}[\widehat{\mathrm{TUBE}}_{\psi,K}(x)] = \mathrm{TUBE}_\psi(x),
\]

此外，如果 \(\operatorname{Var}_{\pi \sim p(\pi)}[p_{\mathrm{model}}(x \mid \pi)] < \infty\)，那么  

\[
\operatorname{Var}_{\pi^{(1:K)}}[\widehat{\mathrm{TUBE}}_{\psi,K}(x)] = \frac{1}{K \,\psi(x)^2} \operatorname{Var}_{\pi \sim p(\pi)}[p_{\mathrm{model}}(x \mid \pi)].
\]

**证明**。由于 \(\pi^{(1)}, \dots, \pi^{(K)}\) 是 i.i.d. 的，  

\[
\mathbb{E}_{\pi^{(1:K)}}[\widehat{p}_{\mathrm{model},K}(x)] = \mathbb{E}_{\pi \sim p(\pi)}[p_{\mathrm{model}}(x \mid \pi)] = p_{\mathrm{model}}(x).
\]

因此，  

\[
\mathbb{E}_{\pi^{(1:K)}}[\widehat{\mathrm{TUBE}}_{\psi,K}(x)] = \log \psi(x) + \frac{\mathbb{E}[\widehat{p}_{\mathrm{model},K}(x)] - \psi(x)}{\psi(x)} = \log \psi(x) + \frac{p_{\mathrm{model}}(x) - \psi(x)}{\psi(x)} = \mathrm{TUBE}_\psi(x).
\]

对于方差，由于 \(\psi(x)\) 是固定的，\(\widehat{\mathrm{TUBE}}_{\psi,K}(x)\) 中唯一的随机项是 \(\widehat{p}_{\mathrm{model},K}(x)\)。因此：  

\[
\operatorname{Var}[\widehat{\mathrm{TUBE}}_{\psi,K}(x)] = \frac{1}{\psi(x)^2} \operatorname{Var}[\widehat{p}_{\mathrm{model},K}(x)].
\]

由 \(K\) 个样本的独立性，  

\[
\operatorname{Var}[\widehat{p}_{\mathrm{model},K}(x)] = \operatorname{Var}\left[\frac{1}{K} \sum_{k=1}^K p_{\mathrm{model}}(x|\pi^{(k)})\right] = \frac{1}{K} \operatorname{Var}_{\pi \sim p(\pi)}[p_{\mathrm{model}}(x \mid \pi)].
\]

∎  

## 附录 C 似然估计器的比较  

在本附录中，我们给出 §4 (https://arxiv.org/html/2605.24292#S4) 中概述的上界估计器（CUBOβ、TVOΛ、IS-VG-B）的精确定义，推导其有限样本蒙特卡洛形式，并识别每个估计器中偏差的结构性来源。通篇使用 §3 (https://arxiv.org/html/2605.24292#S3) 的记号：\(\pi\) 是潜生成结构（对于AO-ARM，顺序 \(\pi \in \mathcal{S}\)；对于MDM，分组顺序 \(\pi \in \mathcal{G}\)），\(p(\pi)\) 是由模型定义的顺序分布，标准 \(K\) 样本蒙特卡洛估计器 \(\widehat{p}_{\mathrm{model},K}(x)\) 是 (11 (https://arxiv.org/html/2605.24292#S3.E11)) 中定义的。下面的每个估计器都使用此单一共享样本库。  

### C.1 CUBO 和 Rényi 变分界  

Dieng 等人 [2017 (https://arxiv.org/html/2605.24292#bib.bib9)] 的 \(\chi^\beta\) 散度上界（CUBO）和 Li 与 Turner [2016 (https://arxiv.org/html/2605.24292#bib.bib25)] 的 Rényi 变分界是同一族 \(\log p_{\text{model}}(x)\) 上界的两种等价表述。在我们的潜混合形式中，  

\[
\mathrm{CUBO}_\beta(x) = \frac{1}{\beta} \log \mathbb{E}_{\pi \sim p(\pi)}\left[p_{\mathrm{model}}(x|\pi)^\beta\right] \geq \log p_{\mathrm{model}}(x), \quad \beta \geq 1, \tag{17}
\]
TUBE: 离散扩散语言模型证据的切线上界

相似文章

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

LangFlow：连续扩散在语言建模中可与离散扩散相媲美

大型语言扩散模型的不确定性量化

离散扩散语言模型上的成员推断攻击

基于时空并行解码与置信度外推的高效扩散LLMs

提交意见反馈