采样更多，获得更少：校准是大语言模型多样性的瓶颈

arXiv cs.CL 2026/05/13 04:00 论文

llms sampling calibration diversity generative-ai research

摘要

本文引入了一种有效性-多样性框架，将大语言模型中的多样性崩溃归因于解码过程中的排序和形状校准偏差，并在 14 种语言模型上进行了验证。

arXiv:2605.11128v1 公告类型：新论文摘要：多样性对于从创意生成到科学发现等各类语言模型应用至关重要，然而现代大语言模型往往退化为仅产生狭窄范围内看似合理的输出。虽然以往的研究已开发出衡量这种多样性缺失的基准测试，但关于推理过程中逐步的概率分布如何导致这一问题，人们的了解仍然有限。我们引入了一种有效性-多样性框架，将多样性崩溃归因于大语言模型在解码过程中如何在有效和无效续写之间分配概率质量。该框架将这一瓶颈分解为两种互补的校准偏差形式。首先是排序校准：有效 token 并未被可靠地排在无效 token 之上，因此基于排名的截断规则必须在恢复有效续写和允许无效续写之间进行权衡。其次是形状校准：概率质量过度集中在少数几个有效续写上，同时在混合了有效和无效 token 的长尾区域分布广泛，因此保持高有效性会限制多样性。我们正式化了这两种机制，并表明局部失败会在解码步骤中累积，从而导致序列级别的多样性显著损失。在实证方面，我们开发了受控的诊断方法来探测这些瓶颈，包括具有确切已知有效集的任务和基于 oracle 的截断基线。在跨越多个家族和规模的 14 种语言模型中，我们发现多样性崩溃不仅仅是特定采样启发式方法的局限性，而是大语言模型分布中排序和形状校准偏差的结果。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 06:09

# 采样更多，得到更少：校准是大语言模型多样性的瓶颈

来源: https://arxiv.org/html/2605.11128

Amin Banayeeanzade♠ Qingchuan Yang<sup>1</sup>♠ Dhruv Tarsadiya♠ Fatemeh Bahrani♠ Leonardo Blas♠ Alfy Samuel♣ Robin Jia♠ Meisam Razaviyayn♠ Sai Praneeth Karimireddy♠

<sup>♠</sup>南加州大学 <sup>♣</sup>Capital One
\{banayeea,qcyang,razaviya,karimire\}@usc\.edu

![[无标题图片]](https://arxiv.org/html/2605.11128v1/figs/rocket.png)

演示: https://diversitycalibration.github.io/

###### 摘要

多样性对于从创意生成到科学发现的各种语言模型应用至关重要，但现代大语言模型（LLM）往往坍缩为合理输出中的一个狭窄子集。虽然先前的工作已经开发了衡量这种缺乏多样性的基准，但对于推理过程中逐步的概率分布如何导致这一问题，人们知之甚少。我们引入了一个**有效性-多样性**框架，将多样性的坍缩归因于大语言模型在解码过程中如何在有效和无效的续写之间分配概率质量。该框架将瓶颈分解为两种互补的校准错误形式。首先，是**顺序校准（order calibration）**：有效令牌并未可靠地排在无效令牌之上，因此基于排名的截断规则必须在恢复有效续写和允许无效续写之间进行权衡。其次，是**形状校准（shape calibration）**：概率质量过度集中在少数有效续写上，同时拥有一个混合了有效和无效令牌的重尾分布，因此保持高有效性会限制多样性。我们形式化了这两种机制，并表明局部失败会在解码步骤中累积，导致序列级别的多样性严重损失。在经验上，我们开发了受控的诊断方法来探查这些瓶颈，包括具有确切已知有效集的任务和最佳截断基线。在跨越多个家族和规模的14种语言模型中，我们发现多样性的坍缩不仅仅是特定采样启发式方法的局限性，而是大语言模型分布中顺序和形状校准失败的结果。

## 1 引言

> 参见图注

**图1：**（左）来自 Qwen3.5-35B-A3B 的生成步骤的令牌分布。分布前端非常尖锐，随后是一个混合了有效和无效令牌的重尾。因此，（右）在许多温度采样下，许多有效令牌不太可能出现在输出中。<sup>†</sup>令牌经过非均匀子采样以增强可视化效果。

生成中的多样性对于广泛的应用至关重要，包括合成数据生成 [3]、创意写作 [49]、推荐系统 [6]、编程 [47] 以及科学发现中的探索 [39]。然而，当代大语言模型（LLM）往往表现出明显的多样性缺乏 [18, 30, 36, 44]。例如，GPT-4 生成的数据集中 59% 的故事以“从前”开头，而当被要求说出世界上一个随机城市时，GPT-5.5 反复输出“智利的瓦尔帕莱索”（见附录 G）。这些例子说明了一种更广泛的失败模式：当生成过度集中在少量高概率输出上时，许多有效的替代方案可能会被系统地欠采样。

最近的工作在衡量这种缺乏多样性方面取得了重大进展 [49]，但它们既没有解释坍缩的来源，也没有提供系统地追踪问题的诊断工具。尽管标准采样方法旨在解决这一问题，但它们反而揭示了问题的难度；温度采样虽然能扁平化分布，但在恢复足够的多样性之前，往往将概率质量转移到无效或无意义的续写上 [35]。诸如 top-k 和 min-p [28] 之类的顶部令牌过滤方法会截断排序后的分布，但它们要么丢弃许多有效的替代方案，要么包含无效的令牌。这表明瓶颈不仅仅在于解码启发式方法，更在于 LLM 分布本身的特性。

因此，我们要问：**LLM 的哪些分布特性限制了它们生成既有效又多样输出的能力？**

为了形式化这一观点，我们通过**有效性-多样性权衡**的视角研究 LLM 的推理时分布。我们不仅测量已完成生成的多样性，还分析解码过程本身，以及模型的下一个令牌分布如何在生成过程中分配概率质量。这一视角揭示了两种不同的失败模式。

首先，LLM 在**顺序校准**方面失败：有效令牌并未可靠地排在无效令牌之上。在图 1 中，我们展示了许多有效的替代令牌（蓝色）出现在排序分布的更下方，并与无效令牌（红色）交错。当这种情况发生时，任何顶部令牌过滤规则都面临不可避免的权衡：扩大截断范围可以恢复更多的有效续写，但也允许更多的无效续写，而收紧截断范围则保留有效性但排除有效替代方案。

其次，LLM 在**形状校准**方面失败：概率质量非均匀地集中在少数有效续写（绿色）上，而其他有效令牌（蓝色）被分配的概率要小得多，同时拥有许多无效令牌（红色）的重尾。在图 1 的右面板中，我们展示增加温度会将概率质量从头部移开，但这些质量中的大部分流入了无效尾部，而不是恢复罕见的有效替代方案。

我们形式化了这些效应，并表明当生成长序列时，由此产生的有效性-多样性损失会累积。在跨越多个家族和规模的 14 种语言模型中，我们发现这些校准失败构成了多样性的主要瓶颈，解决这些问题可以解锁更广泛的模型输出多样性。我们的发现还对模型训练和设计有影响，暗示了在源头上缓解这些瓶颈的方向。最后，我们的分析挑战了常见采样策略背后的隐含假设，并为更原则性的解码方法基准测试和评估提供了指导。

#### 贡献

基于这一框架，我们的贡献如下：

1. 我们引入了一个框架，用于在令牌和序列两个级别分析有效性-多样性权衡。
2. 我们引入了**顺序校准**和**形状校准**作为两种互补的分布瓶颈。我们在理论和经验上证明了局部失败会随序列长度累积。
3. 我们开发了受控的经验诊断方法来探查这些瓶颈，包括具有确切已知有效集的设置和最佳截断基线，并表明任何依赖顶部令牌过滤的解码方法都无法有效恢复多样性。

## 2 相关工作

#### 多样性与模式坍缩

输出多样性有限已成为现代语言模型的中心失败模式 [44, 10, 12, 46]。生成的同质性既出现在单个模型在不同样本中 [36]，也出现在不同模型对相同提示的响应中 [18]。即使是前沿模型，其多样性也远低于人类 [49]，特别是经过广泛对齐和后训练的模型 [45, 43, 22, 20, 30]。共同地，这些工作促使我们将多样性作为语言生成的一个首要属性进行研究。

#### 评估

多样性本质上是多维的，最近的工作已经超越了狭窄的词汇指标，转向对开放式生成的更广泛评估 [49, 18, 21]。试图提高多样性的尝试可能会导致文本退化 [15]，并且温度应仔细调整 [38, 50]。因此，多样性不应脱离质量单独评估 [34]，当许多输出质量低下时，原始多样性具有误导性 [35, 42]。遵循这一观点，我们认为多样性只有在扩大有效、有用输出的空间时才有意义，并利用这一视角来诊断现有解码规则何时未能做到这一点。

#### 提高多样性

长期以来，许多工作试图通过提示 [48, 29, 41]、训练 [25, 16, 26, 7]、基础对齐模型协作 [42, 32] 以及推理时干预 [40, 37] 来提高多样性。与我们的工作更接近的是，推理时的随机方法，如温度缩放 [1]、top-k [8]、top-p [15] 和 min-p [28] 采样，修改了下一个令牌分布的支持或尖锐度。后续方法使截断更加自适应 [13, 27, 28, 33, 51]。我们的工作补充了这一文献：我们不是提出另一种解码策略，而是探讨为什么现有的采样规则往往无法恢复有意义的多样性。

## 3 预备知识

我们考虑一个具有词汇表 $\mathcal{V}$ 的自回归 LLM。给定提示 $x \in \mathcal{V}^*$ 和生成的前缀 $y_0$。解码规则如果在每个时间步仅对有效令牌分配高概率，则实现高有效性；如果它在 $G$ 中探索许多不同的令牌，而不是仅集中在其中少数几个上，则实现高多样性。然而，LLM 无论采用何种解码策略，往往表现出显著的有效性-多样性权衡。

在本工作中，我们确定了源于模型分布特性的这一现象的两个主要来源：

在第 4 节中，我们首先介绍**顺序校准**及其对顶部令牌过滤方法的影响。接下来在第 5 节中，我们确定了**形状校准**问题，并表明这两种效应共同构成了观察到的有效性-多样性权衡的主要来源。

## 4 顺序校准失败：有效令牌未排在首位

现代解码策略隐含地假设有效令牌集中在排序分布的顶部附近，并且分布的简单统计量（例如累积质量或相对概率差距）可以可靠地识别和保留这些令牌。在这种观点下，通过扩大保留集来增加多样性，而通过截断低概率区域来保留有效性。

在本节中，我们表明 LLM 令牌分布系统地违反了这些假设。有效令牌不仅局限于头部，而且经常与无效令牌交错分布在尾部（见图 1），并且排名与有效性之间的关系既非单调，也不随上下文稳定。因此，任何仅基于排名过滤的解码规则都面临固有的局限性：它必须在排除有效令牌和允许无效令牌之间进行不可避免的权衡。即使在每一步分离有效和无效令牌时存在很小的不完美，这些不完美也会在长生成过程中以乘法方式累积，导致可到达的有效输出急剧下降。

#### 截断策略

我们将所有顶部令牌过滤方法抽象为截断策略。设 $S$ 表示一种截断策略。给定前缀 $y_1$ ($d > 1$)：

我们不立即贪婪地解码，而是在每个后续步骤递归地扩展令牌，构建一个续写树（图 2，左）。在将每个分支的所有节点扩展到 $d$ 个令牌后，我们通过贪婪解码完成每个叶子。通过用评判器评估这些生成的序列，我们为树中序列中的每个令牌获得一个有效性标签：如果一个令牌至少出现在一个有效序列中，则该令牌是有效的。由于序列数量随深度指数增长，且每个深度需要多次 LLM 调用，我们扫描至深度 3，并在每个深度对令牌进行子采样，详见附录 B。

给定直到步骤 $d$ 的每个令牌的有效性标签，我们通过扫描所有可能的截断策略并计算每个节点使用定义 4.1 的局部权衡，构建精确率-召回率权衡曲线。注意，我们的框架包括所有顶部令牌过滤策略，因为它允许任何节点任意调整其自身的截断。每种截断策略在精确率-召回率曲线上给出一个点；我们取所有策略的帕累托前沿作为可实现的最佳权衡的代表。

#### 局部精确率-召回率权衡随深度恶化

我们在 10 个种子中执行上述程序，每个种子重复使用来自 NoveltyBench [49] 的随机查询和随机前缀 $y_0$。存在常数 $C, C' > 0$，使得任何满足 $\mathrm{Prec}_{\mathrm{seq}}(S) \geq 1-\delta$ 的截断策略 $S$ 必须满足 $\mathrm{Rec}_{\mathrm{seq}}(S) \leq (1-\delta)^{-C}e^{-cm}$。

> 参见图注

**图 4：** Qwen-3、Llama-3、Olmo-3 在 9 种规模和训练阶段上的精确率-召回率权衡。评估结果在 3 个随机位置和查询上取平均。（上）精确率-召回率前沿下的平均面积。（下）精确率为 0.8 时的平均召回率。

**表 1：** 截断策略的语义和词汇多样性。更高的嵌入多样性得分对应更高的语义多样性；更低的 Self-BLEU 得分对应更高的词汇多样性。

#### 解释

该定理形式化了累积...

采样更多，获得更少：校准是大语言模型多样性的瓶颈

相似文章

解码阶段间歇性注入随机 token 可在无需微调的情况下提升 LLM 多样性

输出多样性在后训练中的崩溃发生在哪里？

从信号退化到计算崩溃：揭示LLM量化的两种失效模式

对齐更优，多样性下降？分析两代大语言模型的语法与词汇特征

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

提交意见反馈