低困惑度实则重复：连续扩散语言模型中的一维自条件吸引子

arXiv cs.CL 2026/07/02 04:00 论文

diffusion-language-models repetition self-conditioning attractor perplexity text-generation

摘要

本文揭示，ELF等连续扩散语言模型报告的低生成困惑度（Gen-PPL）具有误导性，因为它奖励重复；作者确定了自条件循环中的一维吸引子为根源，并提出了ACE，一种通过减去该方向来减少重复且不牺牲质量的简单修复方法。

arXiv:2607.00588v1 Announce Type: new Abstract: 连续扩散语言模型（如ELF）报告了创纪录的低生成困惑度（Gen-PPL）。我们发现了一个问题：这些模型的重复程度远高于人类文本，而Gen-PPL奖励而非惩罚这种重复，因此其低分数夸大了质量。去除重复后，ELF-B的Gen-PPL从$19.5$上升到$27.7$；最小的模型甚至因为重复最多而获得了最好的Gen-PPL。我们将重复追溯到其根源：自条件反馈循环中沿\emph{单一方向}的收缩吸引子，该循环将每一步的干净估计反馈到下一步。由于问题是一维的，一维修复就足够了，我们提出了一种方法。\textbf{ACE}（Attractor-Contrast-Escape）在每一步从反馈中减去那个单一、无标签的方向。在$105$M模型上估计一次后，该方向将重复减少到接近人类水平，同时保持质量竞争力，并且几乎不变地迁移到$342$M和$652$M模型以及不同的采样器上；同样的方法在其他架构上也能恢复有用的方向。由于Gen-PPL本身奖励重复，我们转而衡量每种修复方法生成人类清洁文本所需的计算量，其中ACE的成本降低了$1.5$--$5\times$。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:37

# 低困惑度即重复：连续扩散语言模型中一种一维自条件化吸引子

来源：https://arxiv.org/html/2607.00588

舒帅张¹²，子杰陈²，宏亮何²，伦杜³,†，振忠兰²,†
¹浙江大学
²西湖大学
³蚂蚁集团
zhangshuai@westlake\.edu\.cn
lanzhenzhong@westlake\.edu\.cn
†通讯作者

###### 摘要

诸如 ELF 等连续扩散语言模型报告了创纪录的低生成困惑度 (Gen-PPL)。我们发现了一个问题：这些模型生成的文本重复程度远高于人类文本，而 Gen-PPL 非但不惩罚反而奖励这种重复，因此其低分夸大了质量。去除重复后，ELF-B 的 Gen-PPL 从 19.5 升至 27.7；最小的模型因为重复最多反而取得了最佳的 Gen-PPL。我们将重复的根源追溯到：自条件化反馈循环中沿着*单一方向*的一个收缩吸引子，该循环将每一步的干净估计反馈给下一步。由于问题是**一维**的，一个**一维**的修复就足够了，我们提出了一个方案。ACE（吸引子对比逃逸）从每一步的反馈中减去这个单一的、无标签的方向。在 105M 模型上估计一次后，该方向在保持质量竞争力的同时将重复降至接近人类水平，并能几乎不变地迁移到 342M 和 652M 模型以及不同的采样器；同样的方案在其他架构上也能恢复有用的方向。由于 Gen-PPL 本身奖励重复，我们转而衡量为使文本达到人类纯净水平每种修复所需的计算量，其中 ACE 便宜 1.5–5 倍。

## 1 引言

连续扩散语言模型 (DLM) 是一条有前景的非自回归文本生成路径：它们在一个可微的嵌入空间中并行地对整个序列进行去噪，并可通过梯度和引导进行操控。自条件化 (Chen 等，2022) 通过将模型自身的干净估计反馈到每一步以细化下一步，从而提高了样本质量。最近的模型如 ELF (Hu 等，2026) 报告了低生成困惑度 (Gen-PPL)，这是该领域视为生成质量的指标。我们发现这个头条数字隐藏了一个缺陷：ELF 生成的样本重复程度远高于人类文本，而 Gen-PPL *奖励*而非惩罚这种重复。去除重复后，ELF-B 的 Gen-PPL 从 19.5 升至 27.7，这使得更大的 ELF-M 能够超越它；最小的模型取得最佳 Gen-PPL 仅仅是因为它重复得最多 (表 4)。这个缺陷是严重且系统性的。大量 ELF 样本会锁定在几个重复的 4-gram 上并循环数百个词 (表 17)，而人类文本基本上不会这样。这种联系不仅跨模型存在，在同一个模型内部也存在：在固定设置下，样本级重复与用于评分的 GPT-2 (Radford 等，2019) PPL 相关 (表 16)。这个缺陷之所以被隐藏，是因为用于认证的指标对其视而不见：重复文本在评分器下概率很高，因此获得了异常低的 Gen-PPL，类似于自回归生成中的基于似然的退化 (Holtzman 等，2020; Welleck 等，2020)。

参见图注
图 1：重复是一个吸引盆；ACE 从中逃脱。
即使当 ELF 向干净样本去噪时，自条件化也会将其表示 u 沿着一个方向 d（高重复率与低重复率的差距）拖入重复状态 u⋆；基线方法滑入这个吸引盆（红色），而 ACE 减去 d 以将 u 保持在人类纯净区域内（蓝色）。背景：测量的重复率。

我们追溯缺陷的机制，而非止步于症状。像音频反馈一样，这个自条件化循环会稳定在那些最可自预测的内容上，也就是重复的内容。两个探测实验证实了这一点。将反馈强度调高，其他条件不变，会同时推高重复率和降低 Gen-PPL (§3)：这个循环*创造*了该指标后来奖励的重复。并且线性化该循环，其雅可比矩阵具有一个最慢收缩模式，因此重复状态是沿着方向 d 的一维*收缩吸引子* (图 1; §4)，而更尖锐的采样只会加深这个吸引盆。这特定于自条件化的连续 DLM (ELF, Plaid (Gulrajani and Hashimoto, 2023))，而其一维几何结构恰好使得一维修复成为可能。

因为吸引子是**一维**的，一个方向足以逃脱它。ACE（Attractor-Contrast-Escape，吸引子对比逃逸）¹¹ 在每一步从反馈估计中减去那个单一方向 d。该方向以无标签方式恢复，即陷在吸引盆中（重复率最高的三分之一）的轨迹与保持自由（最低的三分之一）的轨迹之间反馈均值的差：无需每个 token 的标签，无需辅助模型，无需重新训练。至关重要的是，ACE 作用于缺陷产生的地方，即自条件化反馈上，而不是 token 选择上，因为重复是在连续潜在空间中设置的，位于该选择的上游，因此解码时间的修复难以触及它。单个冻结的方向，在最小的模型上在一个闭式可用窗口内估计一次 (§4)，即可在保持竞争性质量的同时将重复降至接近人类水平，并能几乎不变地跨推理旋钮和模型大小迁移（与每个配置重新估计的余弦相似度为 0.82–0.96）；同样的方案在其他架构上也能恢复有用的方向 (Plaid, LangFlow (Chen 等, 2026))。评估修复需要小心，因为 Gen-PPL 会被 ACE 去除的重复本身所愚弄。因此，我们*接受*低于人类重复率阈值的文本，使用标准无参考指标在接受的集合上读取质量 (§3)，并衡量达到真正非重复文本所需的计算量 (§5)；在此评估下，ACE 以竞争性的质量使文本达到人类纯净水平便宜 1.5–5 倍。

#### 贡献。
1. 1. Gen-PPL 奖励重复。连续 DLM 重复远多于人类文本；我们表明 Gen-PPL，该领域的首要指标，*奖励*而非惩罚这种重复，甚至颠倒了模型排名；我们提出了一个缺陷受控的评估方案，该方案接受低于人类重复率阈值的文本，并评估达到纯净所需的计算量而非 Gen-PPL (§3, §5)。
2. 2. 其机制：一个有效的一维吸引子。通过直接消融和线性稳定性分析，我们将重复追溯到自条件化循环沿着一个方向 d 的有效一维收缩吸引子 (§4)。
3. 3. 其修复：一个冻结的方向 (ACE)。一个廉价、无标签、冻结的单一方向，在闭式可操控窗口内应用，可以去除大部分重复并在不同旋钮和规模间迁移；同样的方案在其他架构上也能恢复有用的方向；在我们的评估下，它以可比较的质量和 1.5–5 倍更低的成本达到人类纯净文本 (§5, §6)。

#### 与先前工作的关系。
先前的工作暴露了 (扩散-)LM 评估中的指标缺陷 (Zheng 等, 2025; Wang 等, 2022; Franca and Tong, 2026)，或研究了离散化和解码瓶颈 (Li 等, 2022; Dieleman 等, 2022)；自回归退化的研究关注沿 token 时间的重复 (Holtzman 等, 2020; Welleck 等, 2020)；而操控工作表明低维干预可以控制扩散 LM 的行为 (Shnaidman 等, 2025)。我们将这些线索联系起来：我们揭示了自条件化连续 DLM 中一个文本可见的重复缺陷，将其追溯到自条件化反馈循环，并通过一个单一的无标签反馈方向干预将其移除 (完整讨论见附录 H)。

## 2 背景与指标

### 2.1 ELF，自条件化，以及两个采样器

ELF (Hu 等, 2026) 是一个连续嵌入的流匹配语言模型。生成从高斯噪声 z₀ 开始，并沿着轨迹 t ∈ [0,1] 从噪声 (t=0) 行进到干净文本嵌入 (t=1)，然后通过每个位置的独立的 arg max 读出为 token id。使用两种采样器：ODE（确定性欧拉积分）和 SDE（欧拉步骤与部分噪声重新注入交替，由采样器的速率参数 γ 控制，我们称之为 *churn*，类比于 Karras 等人 (2022) 的随机采样器旋钮）。

自条件化 (Chen 等, 2022) 是扩散采样的一种精炼技巧：它不是仅从带噪输入预测干净数据 x̂，而是将上一步的估计作为额外输入反馈回来并细化它。它不增加额外的前向传递，能改善样本质量，并广泛用于连续 DLM (ELF, Plaid (Gulrajani and Hashimoto, 2023), LangFlow (Chen 等, 2026))。形式上，它将去噪器转变为一个趋近不动点的循环，这也是我们分析所基于的观点 (§4)。ELF 复用同一通道来蒸馏无分类器引导：不是在每一步进行两次前向传递，而是将先前的估计 x̂_prev 连同一个标量 SC-CFG 权重 w 一起反馈回来，单次前向传递产生引导速度。在每一步 i，
v_i = f_θ(z_i, t_i, w, x̂_prev),   x̂_prev ← x̂_i.               (1)
这个循环将模型的承诺传播到后续步骤，是重复缺陷的核心。

### 2.2 报告的指标

*生成困惑度* (Gen-PPL) 基于 GPT-2 Large 是无条件 DLM 评估的标准指标。对于生成的文本 x = (x₁, ..., x_N)，PPL(x) = exp( -1/N Σᵢ log p_{GPT-2}(x_i | x_{<i}) )。表 1 显示，即使是最小的 ELF 模型也报告了有竞争力的 PPL（越低越好）。人类书写的文本通常获得约 20-26 的 PPL（表 2，第 3 行 vs. 第 2 行；第 7 行 vs. 第 6 行）。Gen-PPL 的绝对数值通常被解释为质量，但正如我们所论证的，这个相同的数字同时奖励了重复（人类文本不会犯的错误）。

*重复率* (Rep-Rate) 是我们为直接量化重复缺陷而引入的辅助指标。我们采用经典的 M-L 比（类型- token 比的一种变体）M-L 比 = 1 - (唯一 4-gram 数) / (总 4-gram 数)。对于长度接近的文本，它可以无偏地跨样本比较。虽然 4-gram 可能部分与语义对齐（例如，*"in the year of"* 是一个有效的 4-gram 并且在人类文本中确实出现），在这种高重述率下，它主要捕获无意中的重复。人类文本的 M-L 比不超过表 2 中列出的边界。为了使比较公平，我们通过*接受*人类水平重复率（=15%）附近的文本并使用标准参考无关指标来评估接受的文本来补充 Gen-PPL。

接受率 (AR@H)。在解码后，我们丢弃归一化 M-L 比超过 15% 的样本（随机选择 4-gram 的平均失败率），并将保留的样本传递给质量评估（表 3）。

## 3 低 Gen-PPL 意味着高重复，反之亦然

我们首先连接起这些现象：Gen-PPL 奖励重复，以及自条件化循环创造重复。

### 3.1 Gen-PPL 与重复之间的负相关

图 3（附录 C）在报告指标 §2.2 下，针对来自两个 ELF 检查点（B：105M；M：342M）和两个采样器（ODE，SDE γ=2）的 256 个随机样本，绘制了 Gen-PPL（x 轴，越低越好）与重复率 M-L 比（y 轴，越高越重复）。强相关性：在所有检查点-采样器组合中，较低（更好）的 Gen-PPL 与较高（更差）的重复率相关联。重述：指标奖励缺陷。

### 3.2 重复模糊了模型排名

如果 Gen-PPL 奖励重复，那么模型排名可能会被相反地向后推动：重复最多的模型以该指标衡量的表现最好。为了验证这一点，我们选取 256 个生成的样本，并通过在保留长度后随机打乱其余部分来去除它们的长距离重复¹。在去除重复后，我们重新计算 Gen-PPL。结果（表 4）：
- 对于 ODE 采样，ELF-B 的 Gen-PPL 从 19.5 上升到 27.7（更多 => 更差）。ELF-M（342M）从 20.1 上升到 23.8。原来重复最少的模型现在获得了更好的 PPL。
- 同样，在 SDE 采样下，最小的模型 (B) 遭受了 Gen-PPL 的最大增幅（18.5 到 24.2）。重复最少的中等模型 (M) 现在是最佳表现者。

生成的 Gen-PPL 数字在没有重复的情况下颠倒了模型排名，并且在所有情况下都在增加。注意，我们用*接受率*补充了 Gen-PPL 指标：对于所有模型，接受率 < 10%，意味着 >90% 的生成的样本需要被拒收，因为它们超过了 15% 的重复率阈值（表 3，第 1-6 行，未包含用于控制重复率的早期停止）。ELF 作为对比基线提供的文本，人类评估者只能获得少许可读内容；并且 ELF 在 ODE 和 SDE 采样器下都遭受重复。

### 3.3 自条件化循环创造重复

对于 ODE 时步采样器，自条件化输入是一个标量 w，用于调节反馈。我们扫描 w ∈ {0.2, 0.5, 1.0, 2.0, 4.0}；对于 SDE 采样器，时步重复地重新注入噪声，导致更弱但持续的循环。对于两者，当反馈增强时重复率增加（表 5：r_S(C) = 0.99 / 0.98）。因此，自条件化循环创造缺陷。

^¹ 此处的“去除重复”指的是完全移除重复序列（多个 4-gram），这相当于仅评估生成文本的非重复部分。有关打乱对 PPL 影响的消融实验，参见附录 C。我们强调文本中重复的纯粹性，在扰动后仍然存在。

## 4 一维吸引子

让我们将这个自条件化循环视为一个映射 s: u_{k-1} → u_k，其中 u_k 是反馈表示（来自方程 1 的无条件版本的 x̂_prev，标量 SC-CFG 权重，见方程 8，附录 A）。这个循环有一个重复的固定点 u⋆，我们围绕它线性化：s(u) ≈ u⋆ + J (u - u⋆)，其中 J = ∂s/∂u|_{u=u⋆}。J 在主轴上是对角化的，其特征值 µ₁ ≥ µ₂ ≥ ⋯ ≥ 0。前导特征向量 v₁ 是*重复轴*，而 ρ := 1 - µ₁ ∈ (0,1) 是其收缩率。对称理想化仅用于将 v₁ 坐标解耦为下面的标量递归；测量的有限差分 J 只是近似对称（附录 B），因此该理论可视为局部标量近似。轴 v₁ 只是相对于更快的离轴模式是最慢的，并非近乎边缘（测量的 µ₁ ≈ 0.15）。

#### 重复是一维的。
围绕 u⋆ 线性化 s，其响应在离轴方向上收缩最快，沿前导特征向量 v₁ 收缩最慢，因此每步变化分解为
Δu_k ≈ (β_k v₁ (主导) + r_k (衰减)) (重复模式) + f_k (去噪驱动力)                      (5)
(引理 1–2，附录 A)：沿轴的重复模式 β_k v₁（系数 β_k = -ρ a_k^(1)，其中 a_k^(1) = ⟨u_k - u⋆, v₁⟩ 是*重复水平*，即反馈沿 v₁ 的距离），从属的离轴模式 r_k ⟂ v₁（在更快收缩方向上的相同自条件化响应），以及近乎正交的驱动力 f_k。由于 v₁ 收缩最慢（谱隙 µ₁/µ₂），r_k 中的离轴瞬态衰减快于 v₁ 分量，因此结构化残差集中在 v₁ 上：重复沿着这个轴是*有效一维的*。冻结驱动力 (f_k ≡ f)，重复水平稳定在 u_∞ = u⋆ + (I - J)^{-1} f (6) (引理 3，附录 A)：沿轴的距离 |a_∞^(1)| = |f^(1)|/ρ 是驱动偏移量，即小的驱动分量 f^(1) = ⟨f, v₁⟩ 除以收缩率 ρ，由于 v₁ 具有最小的 1-µᵢ，因此沿 v₁ 最大；更快的离轴模式稳定在更小的偏移量上。

#### 重复轴是真实且占主导地位的。
实测循环证实了这一点。随着吸引盆的形成，谱隙 µ₁/µ₂ 上升，v₁ 成为清晰的主导模式（图 2b，表 10）；样本的重复水平 a^(1) 预测其最终重复率（图 2a）；并且廉价的均值差 d (§5) 与 v₁ 对齐，重叠度 |cos(v₁, d)| 随着吸引盆的形成攀升至 0.55（图 2b）。这里 d 不必等于单点特征向量 v₁：它是一个轨迹平均的操控方向，部分与 v₁ 对齐，但通过整合整个轨迹上的入盆漂移而操控效果更好（表 5）。重复集中在这个单一模式上：缺陷是有效一维的。我们从反馈雅可比矩阵获得 v₁ 和谱隙（算法 2）。

参见图注
图 2：重复集中在一个主导模式 v₁ 上，廉价的 d 部分与之对齐。(a) 平均反馈投影到重复轴 v₁ 上（前导雅可比特征向量，一旦吸引盆形成，在轨迹分数 ~0.85 时读取），针对两个检查点和采样器。

低困惑度实则重复：连续扩散语言模型中的一维自条件吸引子

相似文章

LangFlow：连续扩散在语言建模中可与离散扩散相媲美

LEAP：通过前瞻早期收敛令牌检测释放 dLLM 并行潜力

统一扩散模型再探：留一法去噪器与吸收态重表述

用于优化离散扩散语言模型的漂移目标

TextLDM：利用连续潜在扩散进行语言建模

提交意见反馈