输出多样性在后训练中的崩溃发生在哪里？

arXiv cs.CL 2026/04/20 04:00 论文

output-diversity post-training language-models dpo sft inference-scaling

摘要

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因，分析了三个 OLMo 3 训练线（Think、Instruct、RL-Zero）在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定，并在训练期间嵌入到模型权重中，仅通过推理时调整无法解决。

arXiv:2604.16027v1 公告类型：新摘要：经过后训练的语言模型产生的输出变化比基础模型更少。这种输出多样性崩溃破坏了依赖多样化样本的推理时扩展方法，并存在同质化模型在创意和价值相关任务上输出的风险。先前的工作将崩溃归因于特定的后训练方法，但没有将训练数据组成的作用与方法本身分离，也没有将生成格式与模型权重分离。我们通过三条平行的 OLMo 3 后训练线（Think 链式思维蒸馏、Instruct 多源广泛数据、RL-Zero）在 15 个任务和四个文本多样性指标上追踪输出多样性的变化。我们发现崩溃位置与数据组成共变：Think 线在监督微调时失去最多的语义多样性，DPO 对 Instruct 的影响大于对 Think 的影响。在 Think 模型推理中抑制链式思维推理会降低困难任务的准确率，但对答案级多样性没有影响，说明崩溃是通过训练数据嵌入模型权重的，而非由生成格式导致的。在六个可验证任务上对多样性损失的分解，分为质量控制成分（移除错误输出）和残差成分（正确答案之间的真实收窄），显示该分布是任务相关的，Think 模型尽管在总体上崩溃更多，但保留了比 Instruct 更多的正确答案多样性。我们的结果表明，多样性崩溃在训练期间由数据组成决定，仅凭推理时调整无法解决。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:30

# 后训练中输出多样性在何处崩溃？

来源：https://arxiv.org/html/2604.16027

Constantinos Karouzos  
Xingwei Tan  
Nikolaos Aletras  
英国谢菲尔德大学计算机科学学院  
{kkarouzos1, xingwei.tan, n.aletras}@sheffield.ac.uk

###### 摘要

后训练的语言模型产生的输出多样性低于基础模型。这种输出多样性崩溃削弱了依赖多样样本的推理时扩展方法，并存在使模型在创意和价值相关任务上输出同质化的风险。先前的工作将崩溃归因于特定的后训练方法，但没有将训练数据组成与方法分离，也没有将生成格式与模型权重分离。我们在三条平行的Olmo 3后训练线路中追踪输出多样性：Think（思维链蒸馏）、Instruct（广泛多源数据）和RL-Zero，跨越15个任务和四个文本多样性指标。我们发现多样性崩溃的位置与数据组成共变：Think线路在监督微调阶段失去最多的语义多样性，而DPO的影响在Instruct中比在Think中更大。在Think模型中在推理时抑制思维链推理会降低困难任务的准确性，但不改变答案级多样性，表明崩溃由训练数据嵌入模型权重，而非由生成格式施加。将六个可验证任务的多样性损失分解为质量控制成分（移除错误输出）和残差成分（正确输出之间的真实收窄），显示分割与任务相关，Think模型尽管总体上崩溃更多，但保留更多正确答案多样性。我们的结果表明多样性崩溃在训练中由数据组成决定，无法仅在推理时解决。

代码：https://github.com/ckarouzos/where-diversity-collapses/

## 1 引言

大型语言模型（LLM）依靠后训练来改进有益性、安全性和指令遵循能力。后训练结合了在精选演示上的监督微调（SFT；Ouyang等，2022）以及直接偏好优化（DPO；Rafailov等，2023）或人类反馈强化学习（RLHF）。然而，这导致输出多样性崩溃，即模型在摘要、推理和开放式生成中产生的输出比基础模型更加一致。

多样性崩溃限制了自洽性、pass@k采样和测试时计算扩展。Kamigaito等（2025）展示多样性是推理扩展规律的基础机制。算法原因已被充分理解，但多样性跨任务类型崩溃。这导致LLM产生比基本网络搜索更少多样的输出，与LLM协作写作会降低内容多样性，单奖励RLHF可将多数偏好放大到近乎完全主导。

然而，先前工作将崩溃归因于特定算法。叙述生成中的DPO、创意任务中的奖励步骤和推理中的SFT，但未调查*数据*组成的影响。Ma等在推理时抑制思维链但仅测量准确性而非多样性。现有研究都未隔离训练*方法*与训练*数据*的作用，或生成*格式*与模型权重的作用。两个问题仍未解决：（1）多样性崩溃与后训练方法共变还是与后训练数据组成共变，以及（2）CoT格式本身是否在推理时限制多样性，或者崩溃是否嵌入在模型权重中？

我们通过受控实验设置回答这些问题。我们监测开放权重和数据的Olmo 3模型族的输出多样性，该族跨三条平行线发布所有后训练阶段的检查点。Think和Instruct变体共享相同的后训练配方（SFT→DPO→RL）但数据不同，而RL-Zero完全绕过SFT和DPO。在15个任务和四个多样性指标上评估13个模型，我们展示相同的后训练方法根据上游数据组成产生不同的多样性结果，且每个阶段发挥不同作用。

我们的贡献包括：

- 我们比较Think和Instruct线路，展示崩溃位置依赖于数据：窄CoT蒸馏与Think模型在SFT时的更大降幅相关联，而DPO降幅在Instruct中比Think中更大；
- 我们评估了推理时CoT被抑制的Think模型，发现在任何任务-阶段组合上都无多样性恢复，而质量下降。多样性崩溃驻留在模型权重中，而非由CoT生成格式施加；
- 我们将六个可验证任务的多样性减少分解为质量控制成分（移除错误输出）和残差成分（正确输出之间的真实收窄），展示分割与任务相关。

## 2 相关工作

### 后训练中的可靠性-多样性权衡

Jiang等（2025）展示对齐模型在广泛模型族和规模上展现高输出同质性。Kirk等（2024b）发现RLHF减少每个输入内和跨输入的多样性。与对齐模型的人类协作写作减少内容多样性，用户与ChatGPT头脑风暴产生语义差异更小的想法。

在推理中，SFT改进pass@1但降低pass@k；基础模型在大样本预算下优于RLVR训练模型，基础模型产生更多样输出。Peeperkorn等（2025）识别DPO为最陡峭的降幅。Karouzos等（2026）展示在域转移下适应策略主导对齐目标。当前方法无法选择性地保留有益的多样性。

质量调整多样性展示偏好调优模型在高质量输出中保留更高多样性，多维语言基准发现更大模型通常比更小模型多样性更低。自动多样性指标滞后于人类判断，采样温度无法恢复训练诱导的损失。

### 机制与缓解

DPO的梯度不平衡抑制非优先响应，似然位移将概率转向非预期输出。KL正则化RL按构造指定单峰目标，偏好崩溃源于KL放大，聊天模板诱导多样性崩溃。递归生成合成数据训练导致进行尾部逐步消失。

提议的缓解包括前向KL优化、熵约束RL、解耦正则化、博弈论SFT、多样性感知偏好优化和保形解码。单奖励函数不足以代表多样化的人类偏好。

## 3 实验设置

### 3.1 模型与训练线路

我们研究13个Olmo 3检查点在7B规模。后训练应用多达三个阶段SFT、DPO和RL，从相同基础模型开始。

**Base**（1个模型）。基础模型在Dolma 3 Mix（6T令牌）上预训练，在Dolmino Mix（100B令牌）上中训，上下文扩展至65K令牌。

**Think**（3个模型：Think-SFT、Think-DPO、Think）。SFT在∼2.3M合成CoT推理迹象上训练，使用来自两个教师的（提示，完成）对：QwQ-32B和DeepSeek-R1。DPO使用∼200K Delta Learning对。RL阶段使用GRPO变体，具有可验证奖励且无KL惩罚，训练∼105K个提示以生成Think。

**Think-not-thinking**。为隔离CoT生成格式对学习权重的贡献，我们额外评估所有三个Think检查点，通过预填充空\\n块抑制CoT，强制直接回答。

**Instruct**（3个模型：Instruct-SFT、Instruct-DPO、Instruct）。SFT从Think-SFT初始化，然后在∼2.2M包含函数调用、条纹推理迹象的示例上训练，从多个来源（GPT-3.5、GPT-4、GPT-4.1）而非两个教师进行绘制。DPO（∼260K对）使用与Think-DPO相同的提示池但禁用思考模式，添加多轮和GPT判断的偏好对。相同的RL阶段如Think生成最终Instruct模型。

**RL-Zero**（6个模型）。直接对Base应用RL训练，绕过SFT和DPO。四个Olmo 3变体针对不同奖励域：RL-Zero-Math、RL-Zero-Code、RL-Zero-IF和RL-Zero-General（∼105K个提示各）。两个额外的Olmo 3.1变体（RL-Zero-Math3.1、RL-Zero-Code3.1）训练更多步骤。

### 3.2 任务与数据

**摘要**。TL;DR、CNN/DailyMail和XSum。有界输出长度控制长度混淆，多个有效摘要提供清晰多样性信号。

**代码**。HumanEval、MBPP和CRUXEval。输出可句法不同但功能相同，RL直接优化代码任务。

**推理**。GSM8K、MATH-Algebra、MATH-Geometry和TruthfulQA，主要Think和RL-Zero训练域。这里多样性测量解决方案*策略*变化与答案保持常数。

**指令遵循**。Alpaca，开放式，和IFEval，具有可验证格式约束。

**创意写作**。WritingPrompts，多样性本质上可取。

**价值多元主义**。PRISM和WildBench，测试对齐是否在争议话题上施加单一视角。

我们使用C13-gram匹配测量训练-评估重叠，在四个Dolci后训练数据集与所有15个评估任务之间。九个数据集显示可忽略的重叠（≤2%）。HumanEval、CRUXEval、IFEval、MATH-Algebra、MATH-Geometry和WildBench显示升高的重叠（7-30%），可追踪至共享上游数据。尽管我们标记这些基准，但我们在污染任务上的发现与干净任务上的模式一致。

### 3.3 指标

我们沿四个互补轴测量多样性（详细定义见附录B）。

**EAD**。计数唯一n-gram数量，相对于统一抽取下的预期计数标准化（n∈{1,...,5}平均），捕捉*词汇*多样性。

**SBERT**。计算句子嵌入的均值成对余弦距离（all-mpnet-base-v2；Reimers和Gurevych，2019），捕捉*语义*多样性（0=崩溃，1=不相似）。对于代码任务我们额外报告带UniXcoder嵌入的*语义*多样性（附录F）。

**NLI**。用NLI分类器（roberta-large-mnli；Liu等，2019）评分输出对，跟随Stasaski和

输出多样性在后训练中的崩溃发生在哪里？

相似文章

大语言模型顺序后训练中的表征坍塌

采样更多，获得更少：校准是大语言模型多样性的瓶颈

作为文化演化的模型崩溃

灯塔里的埃利亚斯，又是？诊断LLM故事的低多样性

从上下文偏移到风格崩塌：为什么训练目标比规模更重要

提交意见反馈