自训练不会使语言扁平化——而是重组它：表层标记增强，深层句法消亡

arXiv cs.CL 2026/05/21 04:00 论文

摘要

本文提供的证据表明，对语言模型输出的自训练并不会均匀地使语言扁平化，而是对其进行重组，表层标记（话语连接词、模糊限制语、破折号）增加，而深层句法结构（被动语态、虚拟语气、插入语）崩溃，这被正式化为结构深度假说。

arXiv:2605.20602v1 公告类型：新摘要：对语言模型自身输出进行连续自训练，通常被描述为一个扁平化过程：多样性下降、分布收窄、文本变得“更像自身”。我们提供的证据表明，这种描述是不完整的。在五种模型（GPT-2 124M、Pythia-410M、Pythia-1.4B、OPT-1.3B、Pythia-2.8B）的十一代自训练中，语言并非均匀地扁平化——而是被重组。表层标记（话语连接词、模糊限制语、破折号）上升，而中深层句法结构（疑问句、插入语、被动语态、虚拟语气）崩溃。我们将这种不对称崩溃正式化为结构深度假说（SDH）：语言特征每代的衰减率主要由其结构深度（所需的嵌套句法依赖数量）预测，其次才由其第零代输出频率预测。汇总来自五个模型（涵盖三个架构系列）的17个特征面板（N=85），合并斯皮尔曼相关系数为rho=0.540（p < 10^{-6}；聚类自举95%置信区间[0.434, 0.634]），而频率是明显较弱的预测因子（rho=0.225）。匹配的人类文本微调对照得出rho=0.039（p=0.88），证实该梯度是自训练特有的。我们进一步记录了一个表层复杂性悖论：随着底层从句结构消亡，聚合复杂性代理指标（依存树深度、TTR、词长）均上升，这对训练数据筛选和LLM文本检测有直接启示。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:34

# 自我训练不会使语言扁平化——而是重构语言：表层标记增强，深层句法衰退  
来源：https://arxiv.org/html/2605.20602  

###### 摘要  

对语言模型自身输出的连续自我训练被广泛描述为一个"扁平化"过程：多样性下降，分布收窄，文本"变得更像它自己"。本文提供证据表明这一描述是不完整的。在五个模型（GPT-2 124M、Pythia-410M、Pythia-1.4B、OPT-1.3B、Pythia-2.8B）的11代自我训练中，语言并非被均匀扁平化——而是被**重构**。表层标记（话语连接词、模糊限定词、破折号）和聚合的"复杂性"代理指标（依存树深度、类符-型符比、平均词长）全部**上升**，而中层和深层句法结构（疑问句、插入语、被动语态、虚拟语气）则崩溃。我们将这种不对称崩溃形式化为**结构深度假说（SDH）**：语言特征φ的逐代衰减率主要由其**结构深度**d(φ)——该特征所需的嵌套句法依存关系数量——预测，其次才由其第零代输出频率预测。汇合来自跨越三个架构家族的五个模型的17个特征面板（N=85），一个考虑了嵌套结构的混合效应模型得出高度显著的深度系数（p < 0.001）；汇合的Spearman相关为ρ = 0.540（p < 10⁻⁶；聚类自助法95% CI [0.434, 0.634]），而频率是明显更弱的预测因子（ρ = 0.225）。五个模型中有四个个体显著（Pythia-410M：ρ = 0.609, p = 0.010；OPT-1.3B：ρ = 0.563, p = 0.019；Pythia-1.4B：ρ = 0.498, p = 0.042；Pythia-2.8B：ρ = 0.705, p = 0.002）。一个匹配的人类文本微调对照产生ρ = 0.039（p = 0.88），证实该梯度是自我训练特有的。我们进一步记录了一个**表面复杂性悖论**：当底层子句结构消亡时，复杂性的表面度量反而**上升**。仅报告聚合指纹——正如目前LLM文体测量文献中的标准做法——系统地掩盖了这种分岔，对训练数据策展和检测具有直接影响。

---

# 自我训练不会使语言扁平化——而是重构语言：表层标记增强，深层句法衰退  

刘明  
Amazon  
[email protected]  

## 1 引言  

一个在其自身输出上训练的模型理应收敛。方差收缩，困惑度下降，分布的尾部变薄，并且在主流的"模型崩溃"框架下，文本向一个低熵吸引子漂移 (Shumailov et al., 2024; Dohmatob et al., 2024; Alemohammad et al., 2023)。另一支关于**LLM语言指纹**的文献 (Zanotto and Aroyehun, 2024; Sourati et al., 2025; Tercon and Dobrovoljc, 2025; Kobak et al., 2025; Juzek and Ward, 2025) 从静态角度报告了一个平行的观察：机器生成的文本相对于人类基线，异常丰富地包含了话语标记、破折号和模糊限定词。两派文献都认同分布正在发生变化。但我们认为，两者都没有正确描述**发生了何种**变化。  

我们在GPT-2 124M上运行了11代自我训练，并追踪了17个语言特征，这些特征是**先验地**根据其在句法深度量表上的位置选择的——从纯词汇的表层标记（d=0）到跨从句现象如虚拟语气（d=3）。呈现的画面并非扁平化，而是分岔。  

#### 分歧。  

话语标记（however, moreover, therefore）的相对频率**翻了一倍以上**，模糊限定词、破折号和句首连词也是如此。与此同时，问号下降了92%，插入语下降57%，被动语态下降56%，不规则过去式动词下降52%，虚拟语气结构下降53%。一个从第10代抽取样本的读者将看到比原始GPT-2分布**更**具散文风格、**更**多模糊限定、**更**多形式连词的文本——然而却失去了使散文真正灵活的句法机制（疑问句、嵌入从句、被动语态）。近期文体测量文献中偏好的聚合指纹指标 (Zanotto and Aroyehun, 2024; Kobak et al., 2025) 全部**上升**：依存树深度增加45%，从句嵌入增加33%，类符-型符比增加10%。按照每一个标准的"复杂性"代理指标，文本正变得更丰富；而按照每一个子句结构度量，它正在消亡。  

#### 假说。  

我们认为，这不是一组无关的失败，而是由结构深度预测的单一现象。定义一个特征φ的**结构深度** d(φ) 为在一个句子中许可 φ 所需的最小嵌套句法依存关系数量。我们提出**结构深度假说**：  

> 在迭代自我训练下，一个语言特征 φ 的逐代漂移率近似为 dφ/dt ∝ (−α·d(φ) + β·σ(φ))·φ，其中 σ(φ) 是该特征对采样随机性的依赖度（高 σ = 仅在不同采样下产生，在贪婪模式下缺失）。第一项预测中深层句法特征大致按其深度比例衰减。第二项预测表层、依赖采样的特征利用随机生成的富者愈富动力学。两者共同预测分岔而非扁平化。  

#### 为何是深度而非频率。  

模型崩溃的主要理论解释 (Shumailov et al., 2024; Dohmatob et al., 2024) 将分布漂移归因于一个**频率**机制：罕见事件被采样得少，因此消亡。我们的数据与此解释作为主要驱动因素不符。汇合五个模型（N=85），深度预测每个特征的衰减率（ρ=0.540, p<10⁻⁶），而频率是明显更弱的预测因子（ρ=0.225, p=0.039）。我们数据中衰减最严重的特征并非最罕见的；它们是结构最深的。  

#### 贡献。  

- • 我们将结构深度假说形式化，并推导出三个可检验的预测：表层增强、深层消亡、以及按深度的组均值单调性（§3）。  
- • 我们提供了跨越三个架构家族的五个模型——GPT-2 124M、Pythia-410M、Pythia-1.4B、OPT-1.3B和Pythia-2.8B——各自运行11代的有控自我训练研究，包含17个按深度**先验**分层的特征和每个特征的变化轨迹分析（§5）。GPT-2在 d∈{0,1,2,3} 上的组均值 {+24.9%, −10.0%, −47.2%, −52.7%} 随深度单调变化。  
- • 我们记录了**表面复杂性悖论**——聚合指纹指标上升而子句结构特征消亡——并论证这系统地偏倚了现有的LLM文体测量文献（§5.5）。  

这一结果重塑了两派文献。对于模型崩溃社区，我们提供了一个结构性的而非纯统计性的解释，说明哪些特征会消亡。对于指纹社区，我们提供了一个关于**为何**典型的机器文本标记恰好是它们所是的机制：它们是一场深度分级崩溃中的幸存者——和放大器。  

## 2 相关工作  

#### 模型崩溃。  

Shumailov et al. (2024) 在 *Nature* 上形式化了模型崩溃，表明在合成数据上的递归训练导致语言模型丢失分布尾部。Dohmatob et al. (2024) 提供了一个标度律分析，预测低频事件首先衰减——我们直接测试了这一频率排序机制并发现其不足（§5.3）。Seddik et al. (2024) 提供了一个关于崩溃动力学的补充统计分析。Gerstgrasser et al. (2024) 表明将真实数据与合成数据一起积累可以缓解崩溃。Alemohammad et al. (2023) 刻画了图像和文本领域的自消耗生成循环；Briesch et al. (2023) 证明LLM在其自身输出上训练会受到损害；Guo et al. (2024) 记录了迭代生成下词汇多样性的下降；以及 Herel and Mikolov (2024) 展示了语言建模中类似的崩溃。与崩溃动力学相关，Holtzman et al. (2020) 刻画了神经文本退化并提出了作为缓解措施的核采样，而 Welleck et al. (2020) 提出了不合适性训练以解决重复生成——这两种现象都与我们SDH中的模板放大机制相邻。所有这些工作在标记、嵌入或困惑度层面的分布上研究崩溃。他们没有问**哪些**语言结构会崩溃，也没有将崩溃率与特征本身的句法属性联系起来。我们的贡献是正交的：我们固定崩溃现象，并询问什么支配每个特征的衰减率，发现结构深度是一个显著预测因子，而频率则不显著。  

#### 心理语言学中的加工深度。  

句法复杂性随嵌入深度递增的概念在心理语言学中有悠久的历史。Gibson (2000) 形式化了依存定位理论，预测具有更长依存链的结构有更高的加工成本。Hale (2001) 和 Levy (2008) 表明 surprisal——上下文不可预测性的一个相关量——追踪加工难度。我们的结构深度 d(φ) 可视为这些应用于生成而非理解的加工成本度量的一个粗略代理：在自回归模型下需要更多顺序承诺的特征面临一个类似于人类加工中整合成本惩罚的乘法概率惩罚。  

#### LLM语言指纹。  

越来越多的研究工作刻画了LLM生成文本的静态分布特征。Zanotto and Aroyehun (2024) 整理了独特的词汇和话语标记。Kobak et al. (2025) 记录了 "*delve* 效应"——在机器生成的散文中出现率升高的特定单词和短语。Sourati et al. (2025) 报告了连续LLM生成中词汇多样性的收缩。Tercon and Dobrovoljc (2025) 提供了文体测量档案，Juzek and Ward (2025) 追溯了词汇过度代表的来源，而 Wu et al. (2024) 显示了跨提示的指纹稳定性。Padmakumar and He (2024) 和 Liang et al. (2024) 记录了LLM生成文本对内容多样性和同行评审的下游影响。Mitchell et al. (2023) 提出了基于曲率的机器文本检测方法，其有效性可能受到我们所记录的结构变化的影响。这些工作研究的是单一模型生成的静态指纹，而非其在自我训练下的动力学。我们的贡献将两者联系起来：典型的指纹标记（话语连接词、模糊限定词、破折号）恰好是SDH预测会在迭代下增强的那些特征。  

#### 并发工作。  

Grigoreva et al. (2025) (FLLM 2025) 研究了迭代生成中的词汇漂移，但将特征视为一个无深度标尺的扁平袋子。Vanmassenhove (2025) 将合成数据污染框架为"非自然选择"减少了多语言多样性，这是一个与我们单语结构分析互补的关注点。Peterson and Christiano (2025) 记录了事实内容中的"知识崩溃"。这些工作都没有测试结构深度解释，也没有识别出上升的聚合复杂性代理指标与下降的子句级结构之间的分岔。我们的SDH提供了一个统一的机制，将其词汇漂移发现和模型崩溃文献的分布发现都涵括为单一深度分级过程的预测。  

## 3 结构深度假说  

### 3.1 结构深度  

我们将一个语言特征 φ 的**结构深度** d(φ) ∈ {0, 1, 2, 3, ...} 定义为句子为了许可 φ 而必须实例化的最小嵌套句法依存关系数量。我们使用"结构"而非"句法"来区分 d(φ)——这是特征类型的一个属性——与句子的测量平均依存树深度，后者是表现出表面复杂性悖论的聚合指标（§5.5）。  

- • **d=0：词汇/表层标记。** 其存在独立于周围句法分析的词元或短 n-gram：话语标记（however, moreover），模糊限定词（perhaps, maybe），破折号，感叹号。  
- • **d=1：局部句法。** 依赖于单一句法关系的现象：规则过去式形态（V+ed），句首连词，简单并列，引导直接引语的引号，引入局部阐述的冒号和分号。  
- • **d=2：子句结构。** 需要嵌入从句或非平凡论元结构的现象：疑问句形成（主语-助动词倒装或 *wh* 提取），插入语，被动语态，不规则过去式动词（在我们的标注样本中集中出现在子句末尾和嵌入上下文中），关系从句，状语从句。  
- • **d=3：跨从句/语气。** 需要跨子句边界的并列或非陈述语气的现象：虚拟语气结构（反事实、补语从句虚拟语气）。  

我们定义了一个跨越 d∈{0,1,2,3} 的十七个特征的先验分层面板（表1）。  

#### 深度分配的理由。  

深度分配遵循标准句法理论：一个处于深度 d 的特征在句

自训练不会使语言扁平化——而是重组它：表层标记增强，深层句法消亡

相似文章

从上下文偏移到风格崩塌：为什么训练目标比规模更重要

@rohanpaul_ai: 非常有趣的工作——语言模型不仅会在输出表面产生不良结果；它们还会经历内部状态…

大语言模型顺序后训练中的表征坍塌

无语义的语法：教会大语言模型用未见过的语言编程

指令微调模型在局部重用人句法方面超过人类

提交意见反馈