超越推理：强化学习释放大型语言模型中的参数化知识

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文探讨了强化学习能否在推理任务之外，进一步提升大型语言模型（LLM）对参数化知识的直接回忆能力。研究表明，通过二元奖励进行强化学习，可以通过重新分配概率质量来激活潜在知识，而非习得新事实，从而在事实性问答基准测试中取得显著提升。

arXiv:2605.07153v1 公告类型：新文章摘要：强化学习（RL）在大型语言模型的推理方面取得了显著成功，但其是否也能提升对参数化知识的直接回忆能力，仍是一个悬而未决的问题。我们在一个受控的零样本、单跳、开卷问答（closed-book QA）设定下研究了这一问题，该设定不包含思维链（chain-of-thought），仅基于二元正确性奖励进行训练，并应用了事实级别的训练集-测试集去重，以确保增益反映的是回忆能力的提升，而非推理或记忆能力的增强。在三个模型家族和多个事实性问答基准测试中，强化学习带来了约 27% 的平均相对增益，超越了训练时和推理时的基线模型。从机制上看，强化学习主要通过重新分配现有知识的概率质量，而非习得新事实，将正确答案从低概率尾部移至可靠的贪婪生成中。我们的数据归因研究表明，最具挑战性的样例往往最具信息量：那些答案在未强化学习前的 128 个采样中从未出现的样例（仅占训练数据的约 18%）驱动了约 83% 的增益，这是因为稀有但正确的 rollout 仍然会在训练过程中出现并得到强化。综上所述，这些发现拓宽了强化学习在推理之外的作用，将其重新定位为一个用于激活而非习得潜在参数化知识的工具。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:49

# 超越推理：强化学习解锁大语言模型中的参数化知识

来源：https://arxiv.org/html/2605.07153

Wanli Yang, Hongyu Zang, Junwei Zhang, Wenjie Shi, Du Su, Jingang Wang, Xueqi Cheng, Fei Sun

人工智能安全国家重点实验室，中国科学院计算技术研究所
中国科学院大学

[email protected], [email protected], [email protected]

###### 摘要

强化学习（RL）在大语言模型（LLM）的推理任务中取得了显著成功，但它是否能提高对参数化知识的直接回忆能力仍是一个未解之谜。我们在一个受控的零样本、单跳、闭卷问答（QA）设置中研究了这个问题，该设置不使用思维链（chain-of-thought），仅基于二元正确性奖励进行训练，并应用事实级别的训练-测试去重，以确保性能提升反映的是回忆能力的增强，而非推理或记忆效应。在三个模型系列和多个事实性 QA 基准上，强化学习带来了约 27% 的平均相对增益，超越了训练时和推理时的基线方法。从机制上讲，强化学习主要通过重新分配现有知识的概率质量，而非获取新事实，将正确答案从低概率尾部移至可靠的贪婪生成位置。我们的数据归因研究表明，最困难的样本最具信息量：那些在 128 个预强化学习样本中从未出现答案的样本（仅占训练数据的约 18%）驱动了约 83% 的性能增益，这是因为稀有但正确的生成结果在训练过程中仍然会出现并得到强化。总之，这些发现拓宽了强化学习在推理之外的作用，将其重新定位为一种解锁而非获取潜在参数化知识的工具。

✉️✉️ 脚注文本：通信作者：Fei Sun ([email protected])

## 1 引言

大语言模型依赖于两项基本能力：激发在预训练期间获得的参数化知识，以及基于这些知识进行推理以生成答案 (Zhang et al., 2026)。带有可验证奖励的强化学习（RLVR）(Guo et al., 2025; Wen et al., 2026) 在改善后者方面取得了显著成功，特别是在数学 (Yu et al., 2025) 和代码 (Wang et al., 2026) 中的多步推理方面。然而，前者——即参数化知识的直接回忆——往往不可靠且研究较少：大语言模型往往“知道的多于表达的”，即使正确答案已编码在其参数中，它们仍会生成错误答案 (Orgad et al., 2025; Gekhman et al., 2025)。

因此我们问：**除了复杂的推理之外，强化学习能否提高参数化知识的回忆能力？**

我们证明答案是**肯定的**。更重要的是，强化学习提高事实回忆的方式并非通过显式推理，而是使潜在知识更具可访问性。我们在一个受控的直接回忆设置中研究了这个问题：**零样本、单跳闭卷事实性 QA**，其中模型被指示提供最终答案，**不进行**显式推理。强化学习的奖励是**二元且仅基于结果**的，完全取决于最终答案是否正确。我们进一步确保留出的测试查询与训练数据**没有**事实层面的重叠，因此性能提升反映的是回忆能力的改善，而非在强化学习训练期间注入的知识。

在此设置下，使用二元事实奖励的强化学习在三个大语言模型系列和三个事实性 QA 基准上带来了实质性改进，平均相对增益约为 27%，在所有三个模型上 Natural Questions 数据集的提升超过 53%。至关重要的是，这些增益在不同数据集间具有鲁棒的迁移性，可扩展至高达 72B 的更大模型，并在不同的强化学习算法中保持一致，确立了这种增强作为强化学习范式的一般属性。

为了理解这些增益的来源，我们在相同条件下系统地将强化学习与训练时和推理时的基线进行了基准测试。在训练方面，监督微调（SFT，离策略，仅正样本）提高了训练准确率，但未泛化到留出查询；直接偏好优化（DPO，离策略，对比）在静态偏好对下增益有限；拒绝采样微调（RFT，在策略，仅正样本）实现的增益较小且有时不稳定。这一模式表明，在策略探索和对反馈的联合作用是强化学习优势的来源。在推理方面，测试时扩展策略也远不及强化学习：多数投票仅提供边际增益，思维链提示的帮助也不一致。综上，这些比较确立了强化学习作为一种独特的改善参数化知识回忆的范式，这是传统的训练时或推理时方法无法匹敌的。

在确立了这些增益后，我们首先考察**哪些**失败的问题被强化学习修复，以及它们与未被修复的问题有何不同？一个自然的假设是，强化学习优先恢复模型已经能够弱触及的事实知识，而不是那些完全超出其触及范围的知识。为了量化可触及性，我们将预强化学习的可访问性测量为模型在强化学习之前抽取的 128 个随机答案中正确答案所占的比例。我们的分析揭示了一个清晰的模式：强化学习的修复率随着预强化学习的可访问性的增加而急剧上升。部分可访问的答案（9-16/128 个正确样本）的修复率约为 52%，高度可访问的答案（≥65/128）的修复率约为 84%。即使是那些正确答案在 128 个预强化学习样本中未观察到的最困难案例，其修复率也为 6-13%，这表明其中一些事实是被编码但深度抑制的，而非不存在。

除了**哪些**问题被修复，这些修复如何在模型的生成分布中发生？当正确答案在强化学习后的模型中成为最高排名时，强化学习是使之前不可触及的事实变得可触及，还是将原本存在于低概率尾部中的答案移到了分布的前端？为了区分这些情况，我们将分析从贪婪解码扩展到 pass@k (Brown et al., 2024)，跟踪随着采样预算 $k$ 从 1 增长到 256 时的性能变化。我们发现，强化学习后在 $k=1$ 或 $k=2$ 时的准确率通常匹配预强化学习模型在 $k=16$ 或 $k=32$ 时才能达到的水平，这表明强化学习将大量的采样预算转化为可靠的贪婪解码。然而，随着 $k$ 的增长，差距缩小：在 $k=256$ 的足够采样预算下，预强化学习模型通常能够达到强化学习解锁的事实。这表明强化学习主要不是生成新事实；相反，它将现有的事实从输出分布的低概率尾部拉入可靠的前列位置。

最后，我们考察**哪些**训练样本驱动了这种重新分布。我们进行了一项受控的数据归因研究，根据预强化学习的可访问性对训练样本进行分层，并在每个子集上训练单独的强化学习模型，数据规模相匹配。一个自然的预测是部分可访问的样本应占主导地位：高度可访问的事实几乎没有改进空间，而不可访问（@128）的样本似乎过于稀疏，难以从中学习。然而，事实恰恰相反。虽然不可访问（@128）子集仅占完整训练数据的约 18%，但它单独恢复了约 83% 的完整数据强化学习增益；与部分可访问子集结合，它在平均上与完整数据增益相匹配。跟踪训练动态揭示了原因：其中一些事实在重复生成过程中仍保持非零概率出现，一旦采样到，这些稀有但正确的答案就会得到强化并在训练过程中逐渐放大。

这重新定义了什么是事实性强化学习的有用训练样本：最强的学习信号并非来自模型已经可靠回忆的事实，而是来自其输出分布的低概率尾部。

我们的主要贡献总结如下：

*   我们将强化学习扩展到推理之外，表明简单的二元奖励能显著提高不同模型、数据集和规模下的直接事实回忆能力。
*   我们表明，这些增益并非来自注入新知识，而是来自概率质量的重新分布：强化学习将受抑制的答案从低概率尾部拉入可靠的前列位置。
*   我们识别出一个反直觉的驱动因素：最强的训练信号来自预强化学习模型很少回忆的事实，但强化学习生成仍偶尔能激发出这些事实。

## 2 问题 formulation 和实验设置

在本节中，我们公式化用于直接事实回忆的强化学习问题，描述我们的强化学习训练，并详细说明后续所有分析的基础实验设置。

### 2.1 问题 formulation：用于事实回忆的强化学习

为了调查强化学习是否能提高大语言模型对参数化知识的直接事实回忆，我们研究了一个直接事实 QA 设置：零样本、单跳、闭卷问答，其中模型被指示在不进行中间推理步骤的情况下生成简洁的最终答案。形式上，给定一个事实查询 $q$，模型 $\pi_\theta$ 在严格的非思维链（non-CoT）约束下生成答案 $a \sim \pi_\theta(\cdot | q)$（提示词见附录 A），正确性由二元指示器 $\mathcal{E}(a, a^*) \in \{0, 1\}$ 决定。非 CoT 约束旨在最小化显式推理轨迹带来的混淆因素，以便观察到的改进主要归因于事实回忆能力的增强。

### 2.2 强化学习训练

我们采用组相对策略优化（GRPO）(Shao et al., 2024) 作为我们的代表性强化学习算法。GRPO 通过对比一个 rollout 组内的奖励来估计优势，消除了对单独价值网络的需求，使其非常适合我们的基于结果的设置。因此，我们使用二元事实正确性作为奖励信号，通过基于大语言模型的语义验证来确定，而不是精确匹配，因为后者本质上会惩罚语义正确但表述不同的答案，导致奖励稀疏并仅产生边际增益，如第 6 节所述。为了公平评估，我们在所有模型-数据集组合中保持统一的超参数配置，完整的实现细节见附录 B。

### 2.3 实验设置

**模型和数据集。** 我们实验了三个代表不同模型系列的开源指令微调大语言模型：Qwen2.5-7B-Instruct (Qwen: et al., 2024)，Llama-3.1-8B-Instruct (Grattafiori et al., 2024)，以及 OLMo-2-7B-Instruct (OLMo et al., 2024)。对于评估，我们采用了四个事实性 QA 基准：Natural Questions (NQ) (Kwiatkowski et al., 2019)，TriviaQA (Joshi et al., 2017)，PopQA (Mallen et al., 2023) 和 SimpleQA (Wei et al., 2024)，涵盖了从常见琐事到长尾实体和具有挑战性的前沿问题的广泛知识类型和难度水平。遵循常见做法，我们将这些数据集划分为训练、验证和测试子集，对异常庞大的 NQ 和 TriviaQA 训练集进行子采样至 10,000 个样本。至关重要的是，为了确保正确答案反映的是事实回忆能力的改善而非仅仅是对训练事实的记忆，我们实施了一个**语义去重流程**以防止数据污染：我们通过密集嵌入相似性识别候选重叠，并采用大语言模型作为裁判进行验证，以移除任何针对与训练实例相同底层事实的测试查询。详细的分割统计和去重程序推迟到附录 C。

**生成策略。** 对于答案生成，我们在标准评估中默认使用贪婪解码，而对于所有需要多个随机样本的分析实验，我们将采样超参数与强化学习训练 rollout 保持一致。

**大语言模型作为裁判的验证。** 我们实验的规模，在强化学习训练和分析实验中涉及数千万次验证调用， necessitates 本地开源权重裁判以确保可重复性并避免高昂的 API 成本。为了在这些限制内保证评估质量，我们选择 Qwen2.5-72B-Instruct，这是目前能力最强的开源权重模型之一，作为训练奖励和测试评估的统一裁判。由于使用相同模型进行奖励分配和测试评估可能会引发奖励黑客（reward hacking）的担忧，我们进行了一项可靠性分析，比较了 Qwen 与人工标注以及前沿闭源大语言模型在跨越强化学习前后阶段的 200 个采样输出上的表现。Qwen 实现了 92% 的整体人工一致率，与顶级专有模型相当。关键在于，如果发生奖励黑客，利用裁判特定偏好将表现为强化学习后的人机一致率下降；相反，一致率从 89% 增加到 95%，且 Qwen 的假阳性率（它接受但人工标注者拒绝的答案）在所有 200 个样本中确切为 0%，明确缓解了奖励黑客的担忧。完整的可靠性分析见附录 D。

## 3 强化学习可靠地改善直接事实回忆

在本节中，我们系统评估强化学习在增强直接事实回忆方面的有效性。为了理解其底层机制并检查其普遍性，我们将强化学习与训练和测试时基线进行基准测试，并进一步评估其在各种实际设置下的鲁棒性。

### 3.1 强化学习的优势：在策略探索与对比反馈的结合

**表 1：四个 QA 基准和三个大语言模型的主要结果。** 我们报告了不同训练方法的准确率（%）。最佳结果以**粗体**突出显示。TQA、NQ、PQA 和 SQA 分别代表 TriviaQA、Natural Questions、PopQA 和 SimpleQA。

为了调查强化学习对直接事实回忆的有效性并理解其关键组成部分的贡献，我们将其与隔离了两个单独维度（在策略探索和对比奖励信号）的基线进行比较。这产生了四种不同机制的严格比较：监督微调（SFT，离策略，仅正样本）、直接偏好优化（DPO，离策略，对比）、拒绝采样微调（RFT，在策略，仅正样本）以及我们使用 GRPO 的强化学习方法（在策略，对比）。对于 RFT，我们实施了一个标准的在线迭代流程：反复从最新模型中采样答案并在正确子集上进行微调。所有方法均在相同条件下进行评估，完整的实现细节见附录 E。

如表 1 所示，出现了一个清晰的能力层级，强化学习提供了最强的...

超越推理：强化学习释放大型语言模型中的参数化知识

相似文章

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

强化学习能否教会大型语言模型进行长程推理？表达力是关键

ResRL：通过负样本投影残差强化学习提升大语言模型的推理能力

提交意见反馈