低困惑度实则重复:连续扩散语言模型中的一维自条件吸引子

arXiv cs.CL 论文

摘要

本文揭示,ELF等连续扩散语言模型报告的低生成困惑度(Gen-PPL)具有误导性,因为它奖励重复;作者确定了自条件循环中的一维吸引子为根源,并提出了ACE,一种通过减去该方向来减少重复且不牺牲质量的简单修复方法。

arXiv:2607.00588v1 Announce Type: new Abstract: 连续扩散语言模型(如ELF)报告了创纪录的低生成困惑度(Gen-PPL)。我们发现了一个问题:这些模型的重复程度远高于人类文本,而Gen-PPL奖励而非惩罚这种重复,因此其低分数夸大了质量。去除重复后,ELF-B的Gen-PPL从$19.5$上升到$27.7$;最小的模型甚至因为重复最多而获得了最好的Gen-PPL。我们将重复追溯到其根源:自条件反馈循环中沿\emph{单一方向}的收缩吸引子,该循环将每一步的干净估计反馈到下一步。由于问题是一维的,一维修复就足够了,我们提出了一种方法。\textbf{ACE}(Attractor-Contrast-Escape)在每一步从反馈中减去那个单一、无标签的方向。在$105$M模型上估计一次后,该方向将重复减少到接近人类水平,同时保持质量竞争力,并且几乎不变地迁移到$342$M和$652$M模型以及不同的采样器上;同样的方法在其他架构上也能恢复有用的方向。由于Gen-PPL本身奖励重复,我们转而衡量每种修复方法生成人类清洁文本所需的计算量,其中ACE的成本降低了$1.5$--$5\times$。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:37

# 低困惑度即重复:连续扩散语言模型中一种一维自条件化吸引子

来源:https://arxiv.org/html/2607.00588

舒帅张¹²,子杰陈²,宏亮何²,伦杜³,†,振忠兰²,†
¹浙江大学
²西湖大学
³蚂蚁集团
zhangshuai@westlake\.edu\.cn
lanzhenzhong@westlake\.edu\.cn
†通讯作者

###### 摘要

诸如 ELF 等连续扩散语言模型报告了创纪录的低生成困惑度 (Gen-PPL)。我们发现了一个问题:这些模型生成的文本重复程度远高于人类文本,而 Gen-PPL 非但不惩罚反而奖励这种重复,因此其低分夸大了质量。去除重复后,ELF-B 的 Gen-PPL 从 19.5 升至 27.7;最小的模型因为重复最多反而取得了最佳的 Gen-PPL。我们将重复的根源追溯到:自条件化反馈循环中沿着*单一方向*的一个收缩吸引子,该循环将每一步的干净估计反馈给下一步。由于问题是**一维**的,一个**一维**的修复就足够了,我们提出了一个方案。ACE(吸引子对比逃逸)从每一步的反馈中减去这个单一的、无标签的方向。在 105M 模型上估计一次后,该方向在保持质量竞争力的同时将重复降至接近人类水平,并能几乎不变地迁移到 342M 和 652M 模型以及不同的采样器;同样的方案在其他架构上也能恢复有用的方向。由于 Gen-PPL 本身奖励重复,我们转而衡量为使文本达到人类纯净水平每种修复所需的计算量,其中 ACE 便宜 1.5–5 倍。

## 1 引言

连续扩散语言模型 (DLM) 是一条有前景的非自回归文本生成路径:它们在一个可微的嵌入空间中并行地对整个序列进行去噪,并可通过梯度和引导进行操控。自条件化 (Chen 等,2022) 通过将模型自身的干净估计反馈到每一步以细化下一步,从而提高了样本质量。最近的模型如 ELF (Hu 等,2026) 报告了低生成困惑度 (Gen-PPL),这是该领域视为生成质量的指标。我们发现这个头条数字隐藏了一个缺陷:ELF 生成的样本重复程度远高于人类文本,而 Gen-PPL *奖励*而非惩罚这种重复。去除重复后,ELF-B 的 Gen-PPL 从 19.5 升至 27.7,这使得更大的 ELF-M 能够超越它;最小的模型取得最佳 Gen-PPL 仅仅是因为它重复得最多 (表 4)。这个缺陷是严重且系统性的。大量 ELF 样本会锁定在几个重复的 4-gram 上并循环数百个词 (表 17),而人类文本基本上不会这样。这种联系不仅跨模型存在,在同一个模型内部也存在:在固定设置下,样本级重复与用于评分的 GPT-2 (Radford 等,2019) PPL 相关 (表 16)。这个缺陷之所以被隐藏,是因为用于认证的指标对其视而不见:重复文本在评分器下概率很高,因此获得了异常低的 Gen-PPL,类似于自回归生成中的基于似然的退化 (Holtzman 等,2020; Welleck 等,2020)。

参见图注
图 1:重复是一个吸引盆;ACE 从中逃脱。
即使当 ELF 向干净样本去噪时,自条件化也会将其表示 u 沿着一个方向 d(高重复率与低重复率的差距)拖入重复状态 u⋆;基线方法滑入这个吸引盆(红色),而 ACE 减去 d 以将 u 保持在人类纯净区域内(蓝色)。背景:测量的重复率。

我们追溯缺陷的机制,而非止步于症状。像音频反馈一样,这个自条件化循环会稳定在那些最可自预测的内容上,也就是重复的内容。两个探测实验证实了这一点。将反馈强度调高,其他条件不变,会同时推高重复率和降低 Gen-PPL (§3):这个循环*创造*了该指标后来奖励的重复。并且线性化该循环,其雅可比矩阵具有一个最慢收缩模式,因此重复状态是沿着方向 d 的一维*收缩吸引子* (图 1; §4),而更尖锐的采样只会加深这个吸引盆。这特定于自条件化的连续 DLM (ELF, Plaid (Gulrajani and Hashimoto, 2023)),而其一维几何结构恰好使得一维修复成为可能。

因为吸引子是**一维**的,一个方向足以逃脱它。ACE(Attractor-Contrast-Escape,吸引子对比逃逸)¹¹ 在每一步从反馈估计中减去那个单一方向 d。该方向以无标签方式恢复,即陷在吸引盆中(重复率最高的三分之一)的轨迹与保持自由(最低的三分之一)的轨迹之间反馈均值的差:无需每个 token 的标签,无需辅助模型,无需重新训练。至关重要的是,ACE 作用于缺陷产生的地方,即自条件化反馈上,而不是 token 选择上,因为重复是在连续潜在空间中设置的,位于该选择的上游,因此解码时间的修复难以触及它。单个冻结的方向,在最小的模型上在一个闭式可用窗口内估计一次 (§4),即可在保持竞争性质量的同时将重复降至接近人类水平,并能几乎不变地跨推理旋钮和模型大小迁移(与每个配置重新估计的余弦相似度为 0.82–0.96);同样的方案在其他架构上也能恢复有用的方向 (Plaid, LangFlow (Chen 等, 2026))。评估修复需要小心,因为 Gen-PPL 会被 ACE 去除的重复本身所愚弄。因此,我们*接受*低于人类重复率阈值的文本,使用标准无参考指标在接受的集合上读取质量 (§3),并衡量达到真正非重复文本所需的计算量 (§5);在此评估下,ACE 以竞争性的质量使文本达到人类纯净水平便宜 1.5–5 倍。

#### 贡献。
1. 1. Gen-PPL 奖励重复。连续 DLM 重复远多于人类文本;我们表明 Gen-PPL,该领域的首要指标,*奖励*而非惩罚这种重复,甚至颠倒了模型排名;我们提出了一个缺陷受控的评估方案,该方案接受低于人类重复率阈值的文本,并评估达到纯净所需的计算量而非 Gen-PPL (§3, §5)。
2. 2. 其机制:一个有效的一维吸引子。通过直接消融和线性稳定性分析,我们将重复追溯到自条件化循环沿着一个方向 d 的有效一维收缩吸引子 (§4)。
3. 3. 其修复:一个冻结的方向 (ACE)。一个廉价、无标签、冻结的单一方向,在闭式可操控窗口内应用,可以去除大部分重复并在不同旋钮和规模间迁移;同样的方案在其他架构上也能恢复有用的方向;在我们的评估下,它以可比较的质量和 1.5–5 倍更低的成本达到人类纯净文本 (§5, §6)。

#### 与先前工作的关系。
先前的工作暴露了 (扩散-)LM 评估中的指标缺陷 (Zheng 等, 2025; Wang 等, 2022; Franca and Tong, 2026),或研究了离散化和解码瓶颈 (Li 等, 2022; Dieleman 等, 2022);自回归退化的研究关注沿 token 时间的重复 (Holtzman 等, 2020; Welleck 等, 2020);而操控工作表明低维干预可以控制扩散 LM 的行为 (Shnaidman 等, 2025)。我们将这些线索联系起来:我们揭示了自条件化连续 DLM 中一个文本可见的重复缺陷,将其追溯到自条件化反馈循环,并通过一个单一的无标签反馈方向干预将其移除 (完整讨论见附录 H)。

## 2 背景与指标

### 2.1 ELF,自条件化,以及两个采样器

ELF (Hu 等, 2026) 是一个连续嵌入的流匹配语言模型。生成从高斯噪声 z₀ 开始,并沿着轨迹 t ∈ [0,1] 从噪声 (t=0) 行进到干净文本嵌入 (t=1),然后通过每个位置的独立的 arg max 读出为 token id。使用两种采样器:ODE(确定性欧拉积分)和 SDE(欧拉步骤与部分噪声重新注入交替,由采样器的速率参数 γ 控制,我们称之为 *churn*,类比于 Karras 等人 (2022) 的随机采样器旋钮)。

自条件化 (Chen 等, 2022) 是扩散采样的一种精炼技巧:它不是仅从带噪输入预测干净数据 x̂,而是将上一步的估计作为额外输入反馈回来并细化它。它不增加额外的前向传递,能改善样本质量,并广泛用于连续 DLM (ELF, Plaid (Gulrajani and Hashimoto, 2023), LangFlow (Chen 等, 2026))。形式上,它将去噪器转变为一个趋近不动点的循环,这也是我们分析所基于的观点 (§4)。ELF 复用同一通道来蒸馏无分类器引导:不是在每一步进行两次前向传递,而是将先前的估计 x̂_prev 连同一个标量 SC-CFG 权重 w 一起反馈回来,单次前向传递产生引导速度。在每一步 i,
v_i = f_θ(z_i, t_i, w, x̂_prev),   x̂_prev ← x̂_i.               (1)
这个循环将模型的承诺传播到后续步骤,是重复缺陷的核心。

### 2.2 报告的指标

*生成困惑度* (Gen-PPL) 基于 GPT-2 Large 是无条件 DLM 评估的标准指标。对于生成的文本 x = (x₁, ..., x_N),PPL(x) = exp( -1/N Σᵢ log p_{GPT-2}(x_i | x_{<i}) )。表 1 显示,即使是最小的 ELF 模型也报告了有竞争力的 PPL(越低越好)。人类书写的文本通常获得约 20-26 的 PPL(表 2,第 3 行 vs. 第 2 行;第 7 行 vs. 第 6 行)。Gen-PPL 的绝对数值通常被解释为质量,但正如我们所论证的,这个相同的数字同时奖励了重复(人类文本不会犯的错误)。

*重复率* (Rep-Rate) 是我们为直接量化重复缺陷而引入的辅助指标。我们采用经典的 M-L 比(类型- token 比的一种变体)M-L 比 = 1 - (唯一 4-gram 数) / (总 4-gram 数)。对于长度接近的文本,它可以无偏地跨样本比较。虽然 4-gram 可能部分与语义对齐(例如,*"in the year of"* 是一个有效的 4-gram 并且在人类文本中确实出现),在这种高重述率下,它主要捕获无意中的重复。人类文本的 M-L 比不超过表 2 中列出的边界。为了使比较公平,我们通过*接受*人类水平重复率(=15%)附近的文本并使用标准参考无关指标来评估接受的文本来补充 Gen-PPL。

接受率 (AR@H)。在解码后,我们丢弃归一化 M-L 比超过 15% 的样本(随机选择 4-gram 的平均失败率),并将保留的样本传递给质量评估(表 3)。

## 3 低 Gen-PPL 意味着高重复,反之亦然

我们首先连接起这些现象:Gen-PPL 奖励重复,以及自条件化循环创造重复。

### 3.1 Gen-PPL 与重复之间的负相关

图 3(附录 C)在报告指标 §2.2 下,针对来自两个 ELF 检查点(B:105M;M:342M)和两个采样器(ODE,SDE γ=2)的 256 个随机样本,绘制了 Gen-PPL(x 轴,越低越好)与重复率 M-L 比(y 轴,越高越重复)。强相关性:在所有检查点-采样器组合中,较低(更好)的 Gen-PPL 与较高(更差)的重复率相关联。重述:指标奖励缺陷。

### 3.2 重复模糊了模型排名

如果 Gen-PPL 奖励重复,那么模型排名可能会被相反地向后推动:重复最多的模型以该指标衡量的表现最好。为了验证这一点,我们选取 256 个生成的样本,并通过在保留长度后随机打乱其余部分来去除它们的长距离重复¹。在去除重复后,我们重新计算 Gen-PPL。结果(表 4):
- 对于 ODE 采样,ELF-B 的 Gen-PPL 从 19.5 上升到 27.7(更多 => 更差)。ELF-M(342M)从 20.1 上升到 23.8。原来重复最少的模型现在获得了更好的 PPL。
- 同样,在 SDE 采样下,最小的模型 (B) 遭受了 Gen-PPL 的最大增幅(18.5 到 24.2)。重复最少的中等模型 (M) 现在是最佳表现者。

生成的 Gen-PPL 数字在没有重复的情况下颠倒了模型排名,并且在所有情况下都在增加。注意,我们用*接受率*补充了 Gen-PPL 指标:对于所有模型,接受率 < 10%,意味着 >90% 的生成的样本需要被拒收,因为它们超过了 15% 的重复率阈值(表 3,第 1-6 行,未包含用于控制重复率的早期停止)。ELF 作为对比基线提供的文本,人类评估者只能获得少许可读内容;并且 ELF 在 ODE 和 SDE 采样器下都遭受重复。

### 3.3 自条件化循环创造重复

对于 ODE 时步采样器,自条件化输入是一个标量 w,用于调节反馈。我们扫描 w ∈ {0.2, 0.5, 1.0, 2.0, 4.0};对于 SDE 采样器,时步重复地重新注入噪声,导致更弱但持续的循环。对于两者,当反馈增强时重复率增加(表 5:r_S(C) = 0.99 / 0.98)。因此,自条件化循环创造缺陷。

^¹ 此处的“去除重复”指的是完全移除重复序列(多个 4-gram),这相当于仅评估生成文本的非重复部分。有关打乱对 PPL 影响的消融实验,参见附录 C。我们强调文本中重复的纯粹性,在扰动后仍然存在。

## 4 一维吸引子

让我们将这个自条件化循环视为一个映射 s: u_{k-1} → u_k,其中 u_k 是反馈表示(来自方程 1 的无条件版本的 x̂_prev,标量 SC-CFG 权重,见方程 8,附录 A)。这个循环有一个重复的固定点 u⋆,我们围绕它线性化:s(u) ≈ u⋆ + J (u - u⋆),其中 J = ∂s/∂u|_{u=u⋆}。J 在主轴上是对角化的,其特征值 µ₁ ≥ µ₂ ≥ ⋯ ≥ 0。前导特征向量 v₁ 是*重复轴*,而 ρ := 1 - µ₁ ∈ (0,1) 是其收缩率。对称理想化仅用于将 v₁ 坐标解耦为下面的标量递归;测量的有限差分 J 只是近似对称(附录 B),因此该理论可视为局部标量近似。轴 v₁ 只是相对于更快的离轴模式是最慢的,并非近乎边缘(测量的 µ₁ ≈ 0.15)。

#### 重复是一维的。
围绕 u⋆ 线性化 s,其响应在离轴方向上收缩最快,沿前导特征向量 v₁ 收缩最慢,因此每步变化分解为
Δu_k ≈ (β_k v₁ (主导) + r_k (衰减)) (重复模式) + f_k (去噪驱动力)                      (5)
(引理 1–2,附录 A):沿轴的重复模式 β_k v₁(系数 β_k = -ρ a_k^(1),其中 a_k^(1) = ⟨u_k - u⋆, v₁⟩ 是*重复水平*,即反馈沿 v₁ 的距离),从属的离轴模式 r_k ⟂ v₁(在更快收缩方向上的相同自条件化响应),以及近乎正交的驱动力 f_k。由于 v₁ 收缩最慢(谱隙 µ₁/µ₂),r_k 中的离轴瞬态衰减快于 v₁ 分量,因此结构化残差集中在 v₁ 上:重复沿着这个轴是*有效一维的*。冻结驱动力 (f_k ≡ f),重复水平稳定在 u_∞ = u⋆ + (I - J)^{-1} f (6) (引理 3,附录 A):沿轴的距离 |a_∞^(1)| = |f^(1)|/ρ 是驱动偏移量,即小的驱动分量 f^(1) = ⟨f, v₁⟩ 除以收缩率 ρ,由于 v₁ 具有最小的 1-µᵢ,因此沿 v₁ 最大;更快的离轴模式稳定在更小的偏移量上。

#### 重复轴是真实且占主导地位的。
实测循环证实了这一点。随着吸引盆的形成,谱隙 µ₁/µ₂ 上升,v₁ 成为清晰的主导模式(图 2b,表 10);样本的重复水平 a^(1) 预测其最终重复率(图 2a);并且廉价的均值差 d (§5) 与 v₁ 对齐,重叠度 |cos(v₁, d)| 随着吸引盆的形成攀升至 0.55(图 2b)。这里 d 不必等于单点特征向量 v₁:它是一个轨迹平均的操控方向,部分与 v₁ 对齐,但通过整合整个轨迹上的入盆漂移而操控效果更好(表 5)。重复集中在这个单一模式上:缺陷是有效一维的。我们从反馈雅可比矩阵获得 v₁ 和谱隙(算法 2)。

参见图注
图 2:重复集中在一个主导模式 v₁ 上,廉价的 d 部分与之对齐。(a) 平均反馈投影到重复轴 v₁ 上(前导雅可比特征向量,一旦吸引盆形成,在轨迹分数 ~0.85 时读取),针对两个检查点和采样器。

相似文章

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。

用于优化离散扩散语言模型的漂移目标

arXiv cs.CL

本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。