面向LLM推理的统一数据选择
摘要
本文提出高熵总和(HES),这是一种无需训练的度量方法,用于为LLM训练选择高质量推理数据,并在SFT、RFT和RL等范式中得到验证。
arXiv:2605.22389v1 公告类型:新
摘要:有效训练大型语言模型(LLM)进行复杂的、长链思维推理,往往受限于对海量高质量推理数据的需求。现有方法要么计算成本高昂,要么无法可靠地区分高质量与低质量的推理样本。为解决此问题,我们提出高熵总和(HES),这是一种无需训练的度量指标,通过仅对每个推理样本中熵最高的前(例如0.5%)词元的熵求和来量化推理质量。我们在三种主流训练范式上验证了HES:监督微调(SFT)、拒绝微调(RFT)和强化学习(RL),大量结果表明其具有一致的有效性,并显著降低了计算开销。在SFT中,使用HES排名前20%的数据进行训练即可达到全数据集性能,而使用最低HES数据则会降低性能。在RFT中,我们基于HES的训练方法显著优于基线方法。在RL中,HES选择的成功轨迹使模型能够学习到强大的推理模式,显著超越其他对比方法。我们的发现确立了HES作为一种稳健、无需训练的度量指标,为开发LLM先进推理能力提供了一种统一、有效且高效的方法。
查看缓存全文
缓存时间: 2026/05/22 08:47
# 大语言模型推理的统一数据选择
来源:https://arxiv.org/html/2605.22389
Xiaoyuan Li¹, Yubo Ma², Chengpeng Li², Fengbin Zhu³, Yiyao Yu², Keqin Bao², Wenjie Wang¹, Fuli Feng¹, Dayiheng Liu²
¹中国科学技术大学,²阿里巴巴集团,³新加坡国立大学
###### 摘要
有效训练大型语言模型(LLM)以进行复杂的长链式推理(long‑CoT)通常受限于对大量高质量推理数据的需求。现有方法要么计算成本高昂,要么无法可靠地区分高质量与低质量的推理样本。为了解决这一问题,我们提出**高熵和(High‑Entropy Sum,HES)**,一种无需训练的度量指标,通过仅对每个推理样本中熵值最高的前(例如 0.5%)个 token 的熵求和来量化推理质量。我们在三种主流训练范式:监督微调(SFT)、拒绝微调(RFT)和强化学习(RL)中验证了 HES,大量实验证明了其一致性有效性和显著降低的计算开销。在 SFT 中,使用按 HES 排名前 20% 的数据进行训练即可达到完整数据集的表现,而使用最低 HES 数据则会降低性能。在 RFT 中,我们基于 HES 的训练方法显著优于基线方法。在 RL 中,HES 选择的成功轨迹使模型能够学习到强大的推理模式,显著超过其他对比方法。我们的发现将 HES 确立为一种鲁棒、无需训练的度量指标,从而为开发 LLM 的高级推理提供了一种统一、有效且高效的方法。
## 1 引言
大型语言模型通过链式推理(CoT)解决复杂问题的能力已成为前沿研究的核心焦点(Jaech 等,2024;DeepSeek‑AI,2025;Yang 等,2025)。为了增强模型的推理能力,包括监督微调(SFT)(Ouyang 等,2022)、拒绝微调(RFT)(Yuan 等,2023a)和强化学习(RL)(Shao 等,2024)在内的主流训练范式严重依赖于高质量训练数据。然而,不加区分地扩展训练数据往往会引入更多噪声并产生额外成本,从而迫切需要高效且有效的数据选择方法(Zhou 等,2023)。关键在于定义一种鲁棒的度量指标,以快速准确地区分高质量与低质量数据(Li 等,2024b)。
参见图注
图 1:对 Qwen3‑14B 在 AIME 2025 上每个问题生成的 512 个回答进行判别能力对比分析。结果表明,度量 *(d) 高熵 token 的熵和* 在区分高质量和低质量样本方面最为有效。
当前研究探索了多种过滤训练数据的策略,例如按长度(Rae 等,2021)、困惑度(Marion 等,2023)或平均 token 熵(Sabbineni 等,2023)进行过滤。然而,这些度量在应用于长链式推理(long‑CoT)场景时存在共同局限,因为在这种场景中,扩展且有条理的推理过程对模型学习特别有价值(Chen 等,2025)。具体来说,它们依赖于对推理路径的**粗粒度、全局评估**,对所有 token 赋予相等权重。这种统一平均无法捕捉复杂推理中细微的多阶段结构,后者通常涉及规划、探索和反思(Chen 等,2025)。尽管有些方法通过训练辅助任务特定模型进行数据选择(SHUM 等,2025)或使用强大的 LLM 在多个回答中选择(Toshniwal 等,2025)来解决这个问题,但这些方法会产生**巨大的计算开销**。此外,由于这些方法不直接与正在优化的目标模型对齐或适应,它们有可能产生次优的训练数据。
为了解决上述空白,我们的目标是开发一种**高效**的方法,通过识别并利用长 CoT 回答中嵌入的**细粒度关键信息**来选择高质量的推理样本。最近,Wang 等人(2025)指出,推理过程中少量高熵的**关键 token** 是性能提升的关键驱动力。受此启发,我们对整个推理过程中 token 级别的熵分布进行了初步研究。注意,高熵 token 被定义为位于所有 token 熵分布前 0.5% 的那些 token。我们将结果呈现在图 1 中,从中可以观察到:1)无论是整体平均 token 熵(图 1(a))还是高熵 token 的平均熵(图 1(b))都无法区分高质量与低质量样本。2) 相比之下,高熵 token 的熵求和(图 1(d))比所有 token 的总熵(图 1(c))提供了更鲁棒的区分。这些发现表明样本质量与**关键 token** 的累积熵之间存在强相关性。利用这一关系,我们提出了**高熵和(HES)**,一种无需训练的度量指标,用于量化样本的长 CoT 推理质量。具体来说,HES 通过对熵值最高的前 k%(例如 0.5%)的 token 的熵求和来计算。基于此度量,我们提出了一种高效、统一的数据选择方法,用于为 LLM 策划高质量的推理数据,适用于 SFT、RFT 和 RL 训练范式。
为了评估我们提出的基于 HES 的方法的有效性,我们在三种训练范式中进行了大量实验。结果表明:1) **在 SFT 中**,使用按 HES 排名前 20% 的样本进行训练,在多个领域均能达到与完整数据集相当的性能,而扩展到前 80% 则持续超过基线。值得注意的是,我们证明了使用轻量级 0.6B 模型进行数据选择可以得到与 8B 模型相当的结果,验证了 HES 在离线数据策划中的成本效益;2) **在 RFT 中**,HES 显著优于传统的随机选择,作为一种有效的、无需训练的回馈信号;3) **在 RL 中**,我们的策略是对 rollout 进行过采样,并仅选择按 HES 排名前 50% 的部分,这优于所有 rollout 都参与策略更新的标准设置。这些发现共同突显了 HES 不仅性能优越,而且非常高效:它在离线 SFT 中支持用小模型进行可扩展的代理选择,在在线 RFT 和 RL 设置中产生可忽略的存储开销。实证结果证实,我们基于 HES 的方法是一种既有效又高效的高质量数据选择方法,从而提升了 LLM 的推理能力。
综上所述,我们的贡献如下:
- 我们引入了**高熵和(HES)**,一种无需训练的度量指标,通过仅分析回答路径中的高熵 token 来量化推理质量。
- 我们提出了一种基于 HES 的有效且高效的数据选择方法,兼容 SFT、RFT 和 RL 训练范式。
- 在多个领域的大量实验表明,HES 在 SFT、RFT 和 RL 中持续优于基线,以显著降低的计算开销实现了优越的模型性能。
## 2 预备知识
参见图注
图 2:高熵和(HES)的计算。彩色 token 是参与计算的 token。
### 2.1 训练范式
#### 监督微调(SFT)。
设 \(\mathcal{D}=\{(x,y)\}\) 表示一个正确演示的语料库,其中 \(x\) 是查询,\(y\) 是参考回答。SFT 最小化交叉熵损失,目标函数定义为:
\[\mathcal{L}_{SFT}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}[-\log\pi_{\theta}(y|x)],\]
其中 \(\theta\) 表示模型参数,\(\pi_{\theta}(y|x)\) 是模型在给定 \(x\) 下分配给 \(y\) 的概率。
#### 拒绝采样微调(RFT)。
RFT(Yuan 等,2023a)通过模型自身的探索生成训练样本来扩充 SFT。该过程包括三个步骤:(1)生成:对于查询 \(x\),生成 \(m\) 个不同的候选回答 \(\{y_1,y_2,\dots,y_m\}\);(2)选择:使用选择函数 \(R(y)\) 选择一个回答子集 \(Y\):\(Y=\underset{y_i\in\{y_1,\dots,y_m\}}{\text{argmax}}\,R(y_i)\);(3)微调:用 \(Y\) 创建新数据集 \(\mathcal{D}^*\) 并进行 SFT 微调。
#### 强化学习(RL)。
分组相对策略优化(GRPO)(Shao 等,2024)是近端策略优化(PPO)(Schulman 等,2017)的一种变体。对于每个查询,GRPO 采样一组 \(G\) 个回答 \(\{o_1,\dots,o_G\}\) 及其对应的奖励 \(\{r_1,\dots,r_G\}\)。首先计算回答 \(o_i\) 的优势值 \(\hat{A}_i\):
\[\hat{A}_i=\frac{r_i-\text{mean}(\{r_j\}_{j=1}^G)}{\text{std}(\{r_j\}_{j=1}^G)}.\]
然后,这个分组归一化的优势值用于一个裁剪后的策略梯度目标函数来更新参数 \(\theta\)。要最大化的完整目标函数是:
\[\mathcal{J}_{\text{GRPO}}(\theta)=\mathbb{E}\left[\min\left(r_t(\theta)\hat{A}_i,\text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_i\right)-\beta D_{\text{KL}}(\pi_{\theta_{\text{old}}}\|\pi_{\theta})\right].\]
这里,\(r_t(\theta)\) 是概率比率,\(\hat{A}_i\) 是分组相对优势,\(\epsilon\) 是裁剪边界,最后一项是 KL 散度惩罚,权重为 \(\beta\),以稳定训练。
### 2.2 Token 熵
#### Token 熵。
对于词汇表上概率分布为 \(P_t\) 的 token 位置 \(t\),token 熵 \(H_t\) 定义为:
\[H_t=-\sum_j P_t(j)\log P_t(j),\]
其中 \(P_t(j)\) 表示第 \(j\) 个 token 的预测概率。Token 熵是衡量模型在生成过程中不确定性的基本度量。低熵通常出现在推理路径中可预测的部分,例如完成一个常见短语、执行简单计算或遵循标准模板。相反,高熵表示高不确定性,模型正在考虑多个可行且往往相互竞争的选项。在长 CoT 推理的背景下,这些高熵时刻尤为重要,因为它们通常对应于关键的决策点,模型必须做出一个非平凡的决定,该决定将塑造后续的轨迹(Wang 等,2025)。
#### 平均熵。
量化推理路径整体不确定性的常见方法是平均熵(Sabbineni 等,2023),对于长度为 \(N\) 的路径定义为:
\[\text{AvgE}=\frac{1}{N}\sum_{t=1}^N H_t=\frac{1}{N}\text{ES},\]
其中 ES 是所有 token 的熵和。然而,平均熵的局限性在于它通过对长序列进行平均,掩盖了关键的局部信号。一条成功穿越多个挑战性决策点的优质推理路径,可能与一条遵循直接、低复杂度方式的路径获得相似得分。这种无法区分不同推理复杂度的能力,使得该度量在识别最有价值样本方面不可靠。
## 3 方法论
表 1:RL 中非对称采样策略的定义。\(Y^+\) 和 \(Y^-\) 分别表示正确和错误轨迹的池。\(\rho_S\) 表示基于 HES 排名的选择。且在完整批次中采样一半的正样本和一半的负样本。
为了克服全局度量的局限性,我们首先引入高熵和(HES)作为推理质量的量化度量,然后利用它来指导三种主要训练范式中的数据选择。
### 3.1 高熵和
我们的核心度量是 HES,它量化了推理路径中关键高熵时刻的累积强度。我们定义该度量的两种主要形式,如图 2 所示:一种使用相对分位数阈值的鲁棒自适应版本(\(\text{HES}_{\textit{relative}}\)),以及一种使用固定绝对阈值的更简单替代方案(\(\text{HES}_{\textit{absolute}}\))。
#### \(\text{HES}_{\textit{relative}}\)。
该度量通过自适应地关注样本中最不确定的 token 来捕捉样本的累积复杂性。
\[\text{HES}_{\textit{relative}} = \sum_{t \, | \, \text{rank}(H_t) \geq 1-p} H_t. \tag{1}\]
这里,\(\text{rank}(H_t)\) 选择那些熵 \(H_t\) 排在该样本前 \(p\) 个百分位以内的 token \(t\) 进行求和(例如,\(p=0.005\) 表示前 0.5%)。较高的 \(\text{HES}_{\textit{relative}}\) 得分表明成功导航了更多且更激烈的决策点,这代表着更高质量。相对阈值使得该度量对不同模型和任务间的长度变化具有鲁棒性。¹¹随实验将表明,\(\text{HES}_{\textit{relative}}\) 比 \(\text{HES}_{\textit{absolute}}\) 提供更好的结果。这是因为其自适应性质使其在应对不同模型和推理路径中多样的熵分布时更加鲁棒。因此,在后续内容中,除非另有说明,HES 将指代 \(\text{HES}_{\textit{relative}}\)。
#### \(\text{HES}_{\textit{absolute}}\)。
或者,该度量通过固定的截止值用于质量估计。
\[\text{HES}_{\textit{absolute}} = \sum_{t \, | \, H_t > \tau} H_t. \tag{2}\]
这里,求和是针对那些熵 \(H_t\) 超过预定义绝对阈值 \(\tau\) 的 token \(t\)。相似文章
重新审视LLM推理中的均匀信息密度假设
本文重新审视了LLM推理背景下的均匀信息密度(UID)假设,引入了一个基于熵的框架来量化信息流的均匀性。在七个推理基准上的实验发现,高质量的推理在步骤过渡上表现出局部均匀性,但在轨迹结构上呈现全局非均匀性,这表明LLM推理与人类交流模式存在根本性差异。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
驾驭思考者:用于自适应LLM推理的条件熵塑造
本文介绍了条件熵塑造(CES)框架,该框架动态控制LLM中令牌级别的响应熵,以平衡推理深度和简洁性,在数学基准测试上实现更高的准确率同时缩短响应长度。
量子启发式轨迹增强证据选择:用于结构化假设空间推理
本文介绍了一种量子启发式方法EP-HUBO,它将链式思维推理中的证据选择视为组合优化问题,通过允许少数但正确的假设覆盖嘈杂的多数,在MMLU-Pro法律和LEXam等法律推理基准测试中显著提升了性能。
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。