重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本文挑战了强化学习（RL）能为大语言模型（LLM）教授新推理能力的假设，论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer，这是一种无需强化学习的方法，以显著更低的训练成本实现了与完整强化学习相当的性能。

arXiv:2605.06241v1 公告类型：新发布摘要：强化学习已成为提升大语言模型推理能力的标准方法，但越来越多的证据表明，强化学习并非在教授新策略，而是对基础模型中已存在的解法重新分配概率质量。在本文中，我们提出一个问题：如果强化学习仅仅是引导模型走向其已知的路径，那么强化学习的优化循环本身是否仍有必要？通过对多个模型系列和强化学习算法进行 token 级别的分析，我们发现强化学习的有益影响是一种稀疏且可预测的修正，主要集中在模型对分支选择不确定时的高熵决策点。受影响的 token 位置仅占 1--3%，被提升的 token 始终位于基础模型前 5 个备选方案之内，且在少数特定位置进行的针对性修正能够因果性地恢复强化学习大部分准确率增益，而随机修正则无效。基础模型自身的熵即可识别这些位置，无需任何经过强化学习训练的模型，且整个修正过程是低维的，仅需极少量的模型参数即可表征。这些发现将推理能力的提升重新定义为稀疏策略选择，而非能力获取。我们将这一洞察转化为 ReasonMaxxer，这是一种极简的无强化学习方法，仅在由熵门控的决策点应用对比损失，只需数百次基础模型的 rollout 且无需在线生成。在三个模型系列、六种规模以及六个数学推理基准测试中，ReasonMaxxer 的性能匹配或超越了完整的强化学习，同时仅需数十道题目和单 GPU 分钟级的训练时间，训练成本降低了约三个数量级。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:28

# 是稀疏策略选择，而非能力学习
来源: https://arxiv.org/html/2605.06241

## 重新思考用于大语言模型推理的强化学习：它是稀疏策略选择，而非能力学习

###### 摘要

强化学习已成为提升大语言模型（LLM）推理能力的标准方法，但越来越多的证据表明，强化学习并没有教授新的策略，而是重新分配了基础模型中已存在的解决方案的概率质量。在这项工作中，我们提出一个问题：如果强化学习只是将模型引导向其已知的路径，那么强化学习优化循环本身是否必要？通过对多个模型家族和强化学习算法进行 token 级分析，我们发现强化学习的有益影响是一种稀疏且可预测的修正，主要集中在模型不确定应采取哪条分支的高熵**决策点**上。只有 1-3% 的 token 位置受到影响，被提升的 token 始终位于基础模型的前 5 个替代方案之内，而在这些少数位置进行的针对性修正在因果上恢复了强化学习大部分准确率增益，而随机修正则失败。无需任何经强化学习训练的模型，基础模型自身的熵即可识别这些位置，且整个修正过程是低维的，可以用极少量的模型参数来表示。这些发现将推理改进重新定义为稀疏的**策略选择**，而非能力获取。我们将这一洞察转化为 **ReasonMaxxer**，一种最小的无强化学习方法，它仅在基于熵门控的决策点上应用对比损失，使用几百次基础模型 rollout 且无需在线生成。在三个模型家族、六种规模以及六个数学推理基准测试中，**ReasonMaxxer** 匹敌或超越了完整强化学习的性能，而仅需要数十个问题以及单 GPU 上几分钟的训练时间，训练成本降低了约三个数量级。

## 1 引言

> **图 1：强化学习编辑是罕见的、保守的，且集中于决策点。**
> (a) 强化学习模型选择的 token 平均排名在基础模型的前几个替代方案中位列第 2，这意味着它几乎不会发明新 token，而是提升基础模型已经在考虑的 token。
> (b) 只有 1-4% 的 token 位置被强化学习重新排序，但这些位置的基础模型熵高于未改变的位置。因此，稀疏编辑恰好落在高不确定性的**决策点**上，即模型不确定应采取哪条推理分支的地方。

带有可验证奖励的强化学习（RLVR）已成为提升大语言模型推理能力的主导范式（Guo et al., 2025; Shao et al., 2024; Zeng et al., 2025）。诸如 DeepSeek-R1、OpenAI o1 和 Qwen3 等系统展示了该流程带来的显著提升，该领域广泛采用强化学习（通常是 GRPO 或 PPO）作为数学和代码推理的标准后训练方法。这一范式背后的隐含假设是，强化学习类似于在游戏中发现新策略的方式，使 LLM 能够通过奖励驱动的探索获得真正新的推理模式。

越来越多的证据挑战了这一假设。Yue et al. (2025) 表明，虽然强化学习提高了 pass@1，但基础模型在大 k 值下实现了更高的 pass@k：基础模型的采样分布已经包含了强化学习仅做提升的正确解决方案。Davis 和 Recht (2025) 证明，具有二元奖励的流行强化学习算法都简化为正确答案概率的单调变换上的随机梯度上升，并且只有当基础模型已经非平凡地成功时，这种优化才是有利可图的。Zhang et al. (2025) 通过控制实验证实了这一点：强化学习仅在模型能力边缘、那些困难但尚未超出能力范围的问题上产生真正的增益。在 token 层面，Wang et al. (2025c) 指出强化学习的改进集中在高熵的“分叉 token”处，即模型不确定应遵循哪条推理路径的地方，并表明将这些 token 限制为梯度更新点与在所有 token 上训练效果相当。从结构角度来看，Park et al. (2025) 发现强化学习通过少量新兴的注意力头运作。综上所述，这些发现汇聚成一个新兴的观点：**强化学习主要是引导模型承诺采用基础模型已包含的解决方案路径，而不是发明真正新的推理策略。**

尽管理解日益深入，但仍存在一个关键差距。识别这种结构的工作仍然在强化学习框架内运作：Wang et al. (2025c) 使强化学习更高效而非消除它，Yue et al. (2025) 呼吁改进强化学习范式，Karan 和 Du (2025) 仅提供推理时的替代方案。自然的下一个问题是：我们是否能精确表征强化学习的 token 级影响，如果这种表征足够简单，强化学习优化循环本身是否必要？

在本文中，我们通过跨多个模型家族和强化学习算法的系统性 token 级分析来回答这个问题。我们发现强化学习的行为足迹出奇地简单：它仅修改 1-3% 的 token 位置，不引入基础模型前 5 个候选者之外的 token，并将编辑集中在模型不确定应采取哪条推理分支的高熵**决策点**上。通过使用随机对照的 oracle 干预，我们确立了在这些位置选择特定 token 的因果关系，恢复了强化学习的大部分增益，而随机修正失败。至关重要的是，无需任何经强化学习训练的模型即可定位这些决策点：基础模型自身的 token 熵在强化学习编辑的位置达到峰值，为干预有用的地方提供了强有力的代理。我们进一步表明，完整修正是低维的，可以用极少量的模型参数表示。总之，这些发现将推理改进重新框架化为一个稀疏的**策略选择**问题：在少数几个不确定性点上承诺正确的分支，而不是通过昂贵的探索获取新能力。

为了直接测试这一重新框架化，我们构建了 **ReasonMaxxer**，一种利用已识别结构的最小无强化学习方法。**ReasonMaxxer** 从基础模型生成少量 rollout，使用熵门控定位决策点，并仅在这些位置应用优势加权对比损失，同时将其他所有 token 锚定在基础分布上。该方法不需要强化学习、不需要在线生成、也不需要大规模计算：它以极低的预算最大化推理性能。在三个模型家族和多种规模下，**ReasonMaxxer** 匹敌或超越了经完整强化学习训练模型的 performance，但仅使用数十个问题、数百次 rollout 以及单 GPU 上几分钟的训练时间，将训练成本降低了约三个数量级。如此简单的方法足以胜任，挑战了重型强化学习基础设施对于推理改进是必要的这一普遍假设。

我们的贡献如下：

*   **推理强化学习的机制表征。** 通过对多个模型家族和强化学习算法进行 token 级分析，我们表明强化学习的有益影响是对基础模型已经偏好的 token 进行稀疏的、基于熵局部化的重新排序，并通过带有随机对照的 oracle 干预确立了因果关系。
*   **一种匹敌完整强化学习的无强化学习方法。** 我们引入了 **ReasonMaxxer**，它仅使用基础模型自身的 rollout，在基于熵门控的决策点上应用对比微调。它在数学推理基准测试上匹敌或超越了强化学习训练模型，同时使用的计算和数据少了几个数量级。
*   **重型强化学习并非先决条件的证据。** 通过展示轻量级方法可以复制强化学习的推理改进，我们证明了该领域强化学习解决的问题是稀疏策略选择，而非能力获取。这表明社区对基于结果的推理默认投资完整强化学习管道可能相对于问题的复杂性而言是过量的。

## 2 背景与实验设置

### 2.1 带有可验证奖励的强化学习

我们简要回顾本研究中基准模型使用的强化学习算法。给定提示 $q$ 和真实答案 $a$，RLVR 从当前策略 $\pi_\theta$ 生成 $G$ 个 rollout $\{o^{(i)}\}_{i=1}^G$，并为每个分配一个二元奖励 $R^i = \mathbf{1}[\texttt{match}(o^{(i)}, a)]$。我们在评估的基准中主导的算法是组相对策略优化（GRPO）（Shao et al., 2024），它通过组规范化计算每个 rollout 的优势：

$$
\hat{A}^{(i)} = \frac{R^{(i)} - \text{mean}(\{R^{(j)}\}_{j=1}^G)}{\text{std}(\{R^{(j)}\}_{j=1}^G)}
$$

并通过最大化均匀应用于所有 token 位置的裁剪替代目标来更新策略。这种均匀应用是我们方法的关键对比点：尽管证据（§3 所示）表明只有一小部分位置携带有用信号，GRPO 仍在每个 rollout 的每个 token 上分配梯度。

几个基准使用具有相同核心结构的替代算法。Open-Reasoner-Zero（Hu et al., 2025）采用带 GAE 的近端策略优化（PPO）（Schulman et al., 2017），而其他近期工作探索了诸如 RLOO（Ahmadian et al., 2024）等 REINFORCE 风格变体。所有这些方法优化相同的基本目标：增加导致正确答案的 token 的概率，主要区别在于优势估计和正则化策略。我们在 §3 中的机制分析研究了使用 GRPO、PPO 和 RLOO 训练的模型，并在所有三种算法中发现了相同的稀疏修正模式。

### 2.2 Token 级熵与决策点

对于自回归语言模型 $\pi_\theta$，位置 $t$ 处的 token 级生成熵定义为 $H_t = -\sum_{v \in V} \pi_\theta(v | q, o_{<t}) \log \pi_\theta(v | q, o_{<t})$，其中 $\tau$ 是一个模型家族特定的阈值，使得标记的位置对应于模型熵分布的前百分之几。我们记 $D = \{t : H_t > \tau\}$。

这一步直接依赖于第 3 节的两个发现。首先，经强化学习训练的教师模型与基础模型不一致的位置正是高熵位置（表 2，图 1）。其次，基于熵的门控可以在不损失修正能力的情况下替代教师的不一致信号（第 3.3 节）。因此，$D$ 是完全无教师的、原则性的模型行为最需要细化的位置选择。因为熵仅从基础模型计算，所以此阶段除了已生成的 rollout 外，不需要外部监督。

### 5.3 基于基础锚定的优势加权对比损失

给定单个问题的 rollout 集合，我们计算每个 rollout 的归一化优势：

$$
A_i = \frac{r_i - \bar{r}}{\sigma_r + \epsilon}
$$

其中 $r_i \in \{0, 1\}$ 表示 rollout $i$ 是否得出正确答案，$\bar{r}, \sigma_r$ 是该问题正确性指标的均值和标准差。这种归一化中心化了优势，使得正确和不正确的 rollout 分别获得对称的正负权重，防止类别不平衡扭曲梯度。

训练损失是两个项的总和。在决策点，我们应用优势加权交叉熵：

$$
L_{dec} = -\sum_{t \in D} A_i \cdot \log p_\theta(x_t | x_{<t})
$$

当 rollout 正确时（$A_i > 0$）增加该值，当 rollout 不正确时（$A_i < 0$）减小该值。因此，模型被塑造为重现导致正确最终答案的 token 级选择，并避免那些导致不正确答案的选择。

在决策集 $D$ **之外** 的所有位置，我们最小化到冻结基础模型的 Kullback-Leibler 散度：

$$
L_{anchor} = \sum_{t \notin D} \text{KL}(p_{base}(\cdot | x_{<t}) || p_\theta(\cdot | x_{<t}))
$$

> 注：此处原文片段似乎有截断或格式错误，根据上下文推断，通常对比学习会结合正负样本。下文提到了“positive-only training”（仅正样本训练），这通常作为消融实验。

在 Qwen2.5-1.5B 上，仅正样本训练（相当于在正确轨迹上的监督微调）将 MATH-500 pass@1 从 0.298（基础）提高到 0.398，这是一个非平凡的改进，证实了针对决策点的价值。然而，它仍远低于强化学习模型（0.496）和完整 ReasonMaxxer（0.502）。因此，抑制不正确决策的对比项贡献了相对于基础模型总增益的大约一半，正是正向强化和负向抑制的结合共同捕获了强化学习的完整策略引导效应。这直接支持了设计选择：双向对比损失利用了第 5.1 节讨论的能力边缘信号，教导适配器不仅偏好哪些 token，还要避免哪些 token。

## 7 相关工作

许多与本文最直接相关的工作已在引言（第 1 节）中讨论。这里我们提供更完整的讨论，将本研究置于更广泛的文献中。

#### 强化学习对推理的作用。
越来越多的工作质疑 RLVR 是扩展还是仅仅细化基础模型的推理能力。Yue et al. (2025) 应用 pass@k 分析表明，强化学习训练模型的推理路径位于基础模型的采样分布内。Davis 和 Recht (2025) 证明，具有二元奖励的流行强化学习算法简化为正确答案概率的单调变换上的随机梯度上升，这意味着优化仅在基础模型已经非平凡成功时才是有利可图的。Zhang et al. (2025) 通过控制实验证实了这一点，发现强化学习仅在模型能力边缘产生真正增益。Wang et al. (2025d) 表明单个训练样本可以产生巨大改进，表明强化学习 impart 的修正信号高度可压缩。我们的工作提供了 token 级的机制表征，统一了这些观察结果。

#### LLM 推理中的熵与决策点。
Wang et al. (2025c) 将高熵“分叉 token”确定为 R

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

相似文章

强化学习能否教会大型语言模型进行长程推理？表达力是关键

ExpRL：面向LLM中期训练的探索式强化学习

预训练期间的RL探索：重新审视LLM训练的策略优化

超越推理：强化学习释放大型语言模型中的参数化知识

大语言模型何时进行推理？基于熵相变的动力系统视角

提交意见反馈