推理还是记忆?LLM强化学习中的方向感知多样性探索
摘要
本文介绍了DiRL,一种方向感知的强化学习框架,能够在LLM探索中区分推理驱动的多样性和记忆驱动的多样性。它从模型表示中提取内在的推理-记忆方向,并塑造奖励以优先考虑与推理一致的探索,在数学和通用推理基准上表现出改进。
arXiv:2606.10346v1 公告类型:新
摘要:强化学习已成为激发大型语言模型推理能力的关键范式,其中探索对于发现有效的解决方案轨迹至关重要。现有的探索方法通常鼓励语义或梯度空间中的多样性,而没有区分这种多样性的驱动力。一个轨迹可能看起来新颖,因为它遵循了新的推理过程,或者因为它变化了记忆模式和捷径。同等奖励这两种情况可能会将探索导向记忆而非真正的推理改进。在本文中,我们提出DiRL,一种方向感知的强化学习框架,将探索锚定在策略的内在推理-记忆方向上。具体来说,DiRL从模型表示中提取该方向,构建方向加权的梯度特征以描述展开更新,并塑造奖励以放大与推理一致的探索,同时抑制与记忆一致的变化。DiRL无缝集成到标准的群组相对策略优化(GRPO)中。在数学和通用推理基准上的大量实验证明了DiRL的有效性,显示出相对于各种现有探索方法的显著改进。
查看缓存全文
缓存时间: 2026/06/10 06:14
# 推理还是记忆?LLM强化学习中的方向感知多样性探索
来源:https://arxiv.org/html/2606.10346
蒋楠夏1, 史宇成2, 杨宇3, Kishan Panaganti2, 梁振文2, 刘宁浩4
1佐治亚大学 2腾讯AI Lab 3香港教育大学 4香港理工大学
###### 摘要
强化学习已成为激发大型语言模型推理能力的关键范式,其中探索对于发现有效解题轨迹至关重要。现有探索方法通常鼓励语义空间或梯度空间中的多样性,而未区分这种多样性的驱动因素。一条轨迹之所以显得新颖,可能是因为它遵循了新的推理过程,也可能是因为它变化了记忆中的模式和捷径。如果对这两种情况给予同等的奖励,可能会将探索引向记忆而非真正的推理改进。在本文中,我们提出DiRL,一种方向感知强化学习框架,该框架将探索锚定于策略内部的推理-记忆方向。具体来说,DiRL从模型表示中提取该方向,构建方向加权梯度特征以描述回滚更新,并塑造奖励以放大与推理对齐的探索,同时抑制与记忆对齐的变化。DiRL可以无缝集成到标准的组相对策略优化(GRPO)中。在数学和通用推理基准上的大量实验证明了DiRL的有效性,其性能显著优于现有的多种探索方法。我们的代码可在https://anonymous.4open.science/r/DiRL-8F7C获取。
# 推理还是记忆?LLM强化学习中的方向感知多样性探索
蒋楠夏1, 史宇成2, 杨宇3, Kishan Panaganti2, 梁振文2, 刘宁浩4
1佐治亚大学 2腾讯AI Lab 3香港教育大学 4香港理工大学
## 1 引言
强化学习(RL)已成为激发大型语言模型(LLM)复杂推理的首要范式(Ladosz et al., 2022;Rafailov et al., 2023)。RL中的一个核心挑战是探索:策略必须采样多样化的轨迹,以避免坍缩到狭窄的次优模式(Shao et al., 2024;Guo et al., 2025)。近期方法通过奖励熵或促进采样轨迹之间的多样性来鼓励探索(Ouyang et al., 2022;Zhou et al., 2025;Liang et al., 2025)。然而,这些方法有一个关键局限:它们将所有多样性视为同等有价值,而不区分这种多样性是源于推理还是记忆。一条轨迹可能显得新颖,是因为它探索了真正的新推理路径,也可能仅仅是因为它遇到了与模型记忆不同的模式。现有的探索目标对这两种行为给予相似的奖励。结果,探索可能会放大基于记忆的变化而非真正的推理,从而限制了其提升推理能力的有效性。即使探索度量变得更加优化感知(Song et al., 2025),这一局限仍然存在。早期方法在语义嵌入空间中衡量新颖性,鼓励与先前样本距离较远的轨迹(Zhou et al., 2025)。近期工作将这一判据转移到策略自身的梯度空间,奖励那些引发不同策略更新的轨迹(Liang et al., 2025)。虽然这一转变更好地反映了轨迹对学习的影响,但新颖的更新仍然可能强化记忆而非改进推理。因此,关键问题不仅在于一条轨迹是否引发新颖更新,更在于该更新是否有助于推理改进。
请参阅标题说明
图1:不同探索策略的比较。与现有基于多样性的方法不同,DiRL选择性地强化与推理对齐的新颖性,同时抑制与记忆对齐的变化。
近期研究表明,推理和记忆对应于LLM中不同的操作模式(Nanda et al., 2023)。在熟悉问题上表现良好的模型往往在系统性扰动下失败,表明其依赖记忆模式而非可迁移的推理(Dziri et al., 2023;Berglund et al., 2024)。机制分析进一步表明,这些行为在残差流中产生可区分的特征(Hernandez et al., 2024;Hong et al., 2025)。这些发现为更有效的RL探索提供了新的机会:与其对所有多样性一视同仁,探索可以优先考虑与推理对齐行为相关的新颖性。
在本文中,我们提出DiRL,一种实现这一想法的方向感知强化学习框架。DiRL通过从策略自身的残差流中推导出推理-记忆方向,并将其用作探索的几何锚点,从而使探索与推理改进对齐。对于每个回答,DiRL构建一个方向加权梯度特征,描述该回答将如何沿着这一方向更新策略。同一方向进一步将回答划分为推理对齐和记忆对齐的子组。然后,计算相对于推理对齐子组的探索分数,确保只有当多样性扩展推理而非记忆时才被奖励。最后,DiRL使用该分数来塑造奖励,放大推理对齐的回答,同时抑制记忆对齐的回答。这一设计无缝集成到GRPO(Shao et al., 2024)中,将通用多样性奖励转化为更直接支持推理改进的优化信号。
我们在数学和通用推理基准上评估了DiRL,发现其在pass@1、maj@16和pass@16上均有一致改进。除了原始准确率,进一步的分析表明,DiRL增加了推理对齐回滚的比例,提升了在符号扰动下的性能,并且仅引入适度的计算开销。
主要贡献如下:
- •我们提出了DiRL,一个方向感知的RL框架,将探索锚定于推理-记忆方向,引导策略走向推理而非记忆模式。
- •我们开发了一种新颖的探索机制,在方向加权梯度特征空间中衡量新颖性,并选择性地放大推理对齐的探索,同时抑制记忆对齐的变化。
- •在多个基准上的大量实验证明了我们提出的框架DiRL的有效性。
## 2 相关工作
#### LLM推理中的RL探索。
使用可验证奖励的强化学习已成为训练具有推理能力的LLM的主要范式(Ziegler et al., 2019;Guo et al., 2025),组相对算法如GRPO从稀疏的二元信号优化策略(Shao et al., 2024)。这种奖励的稀疏性使得探索至关重要(Kearns and Singh, 2002)。早期方法通过正则化输出分布来鼓励探索(Mnih et al., 2016),例如添加词元级别的熵奖励以避免过早收敛于狭窄模式(Ouyang et al., 2022)。后续工作超越词元级别,在轨迹级别衡量新颖性,EVOL-RL(Zhou et al., 2025)奖励那些在外部嵌入空间中语义距离较远的轨迹(Reimers and Gurevych, 2019)。认识到语义距离可能与优化动态不一致,G2RL(Liang et al., 2025)进一步将多样性度量转移到策略自身的梯度空间,将新颖性与每条轨迹如何更新模型直接联系起来。与这些不加区分地奖励所有多样性的方法不同,DiRL将探索锚定于推理-记忆方向,放大扩展推理的多样性,同时抑制向记忆漂移的多样性。
#### LLM中的推理与记忆。
越来越多的研究从行为和表示层面区分LLM中的真正推理与记忆(Keysers et al., 2019;Li et al., 2025)。行为研究表明,在熟悉问题上表现良好的LLM往往在系统性变化(Mirzadeh et al., 2025)、序列反转(Berglund et al., 2024)或受控输入扰动(Dziri et al., 2023)下失败,这表明其依赖记忆模式而非组合推理。除了这些行为证据,机制分析识别出LLM中推理的多种表示特征。数学推理通过残差流中的多步电路实现(Hou et al., 2023;Ye et al., 2025),注意力头在知识检索和潜在推理中扮演不同角色(Wang et al., 2022;Elhage et al., 2021),而推理密集型与记忆密集型输入在残差流中沿单一方向线性可分(Hong et al., 2025)。然而,这些发现主要被用作诊断模型行为或推理时干预的分析工具。相比之下,DiRL将这种区分融入训练过程,提取推理-记忆方向以引导强化学习走向推理。
## 3 方法
我们现在介绍DiRL,一种用于LLM的方向感知强化学习方法,它通过推理锚定的探索信号来增强组相对策略优化(GRPO)。首先,我们回顾GRPO并确定探索在优化过程中的作用。其次,我们从策略的残差流中提取推理-记忆方向,并使用该方向将探索导向策略更新。然后,我们定义一个推理锚定的探索分数,相对于推理对齐的回答来衡量新颖性。最后,我们通过奖励塑造将该分数融入GRPO,以鼓励推理驱动的探索。
### 3.1 预备知识:GRPO
设πθ为具有参数θ的自回归策略,πθ_old为用于回滚收集的行为策略。对于每个提示x,我们从πθ_old(·|x)中采样一组m个候选回答{y^(i)}_i=1^m,每个回答通过验证器得到一个二元奖励r^(i)∈{-1,+1}。GRPO(Shao et al., 2024)在组内标准化奖励以获得优势:
A^(i) = (r^(i) - r̄) / (σ_r + ε), (1)
其中r̄=(1/m)∑_{i=1}^m r^(i),σ_r^2=(1/m)∑_{i=1}^m (r^(i)-r̄)^2。当前策略与行为策略之间的每个词元重要性比率为:
ρ_t^(i)(θ) = πθ(y_t^(i)|x, y_<t^(i)) / πθ_old(y_t^(i)|x, y_<t^(i)). (2)
GRPO使用裁剪的替代目标(Schulman et al., 2017)来最大化:
J_GRPO(θ) = E_{x∼D, {y^(i)}∼πθ_old} [ (1/m)∑_{i=1}^m ∑_{t=1}^{|y^(i)|} ( min(ρ_t^(i)(θ) A^(i), clip(ρ_t^(i)(θ), 1-ε_clip, 1+ε_clip) A^(i) ) - β KL_t ) ], (3)
其中KL_t是相对于参考策略的词元级别KL散度,β控制其强度。在标准GRPO中,探索仅通过随机采样和组间奖励竞争来隐式处理,没有专门鼓励多样性的机制。
### 3.2 提取推理-记忆方向
我们的第一个目标是获得一个从策略自身的表示空间中捕捉推理与记忆之间差异的方向。受启发于残差流中的推理与记忆模式是可线性分离的发现(Hong et al., 2025),我们构造一个用于方向提取的探测数据集。具体来说,我们收集一组N个提示,对于每个提示,我们从πθ_old中采样K个回答,通过验证器获取奖励r^(i),并通过加权平均这些回答的隐藏状态来构建一个聚合表示。给定每个提示的代表性隐藏状态,我们为每个提示定义一个标签:如果至少有一个正确回答,则标签为1(推理),否则为0(记忆)。然后我们训练一个逻辑回归分类器,将隐藏状态映射到这些标签,并将分类器的权重向量作为推理-记忆方向d。
形式上,探测分类器定义为:
p(y=1|h) = σ(w^T h + b), (4)
其中参数通过从πθ_old的隐藏状态中收集的二元标签数据集进行训练。训练后,我们将权重向量w赋值为d = w/||w||。该方向d指向推理 vs. 记忆。我们将d固定用于后续训练步骤,并在每一步之后通过更新的策略表示进行重新校准,以适应策略漂移。
### 3.3 方向加权梯度特征
GRPO 使用词元级别的梯度来更新策略参数。为了在与推理-记忆方向相关的几何中描述每个回答的更新,我们构造方向加权梯度特征,该特征衡量更新沿着 d 的组成情况。对于每个回答 y^(i),我们收集每个词元 t 的 GRPO 梯度 g_t^(i) = ∇θ log πθ(y_t^(i)|x, y_<t^(i)) A^(i),其中 A^(i) 是优势。由于梯度位于高维参数空间中,我们使用 Neumann 级数近似 (Liang et al., 2025) 来构建一个低维特征表示,近似于回答对策略参数的影响。具体来说,给定一个典型的参数分布 θ0,回答 y^(i) 的梯度特征定义为:
Φ^(i) = ∑_{t=1}^{|y^(i)|} ∑_{l=0}^{L-1} α^l (∇_θ^2 L(θ0))^l ⋅ g_t^(i), (5)
其中 L 是近似阶数,α 是步长缩放因子,∇_θ^2 L(θ0) 是在 θ0 处评估的局部 Hessian 矩阵。在实践中,我们使用 L=1 的近似,梯度特征简化为:
Φ^(i) = ∑_{t=1}^{|y^(i)|} g_t^(i). (6)
然后,我们通过在推理-记忆方向 d 上投影每个梯度特征来获得方向权重:
s^(i) = ⟨Φ^(i), d⟩. (7)
投影 s^(i) 量化了每个回答的更新方向在推理-记忆轴上的组成。正的 s^(i) 表示更新将策略向推理方向移动;负的 s^(i) 表示更新向记忆方向移动;接近零的值意味着更新在几何上与该区分正交。基于 s^(i) 的符号,我们将回答分为两个子组:
G_R = {i: s^(i) > 0} (推理对齐子组)和 G_M = {i: s^(i) ≤ 0} (记忆对齐子组)。
### 3.4 推理锚定的探索分数
标准 GRPO 在组内通过奖励竞争隐式鼓励多样性,但并未针对如何有益地扩展多样性给予奖励。我们提出一个探索分数 ν^(i) ∈ [0,1],该分数衡量每个回答相对于推理对齐子组的新颖性,确保多样性奖励优先考虑扩展推理方向而不是记忆方向。
探索分数基于两个量构建。第一个是两个回答梯度特征之间的余弦相似度,它捕捉它们将如何不同地更新策略的方向差异,同时对梯度幅度不变:
S_{i,j} = ⟨ Φ^(i)/||Φ^(i)|| , Φ^(j)/||Φ^(j)|| ⟩. (9)
第二个是奖励加权系数,它给正确的参考回答分配比错误的参考回答更大的权重:
w_{i,j} = (exp(r^(j)) * 1{j≠i}) / (∑_{k≠i} exp(r^(k)) + ε). (10)
基于 S_{i,j} 和 w_{i,j},我们计算探索分数为:
ν^(i) = sqrt( max( 1 - ∑_{j∈R_i} w_{i,j} * S_{i,j}^2 , 0) ), (11)
其中 R_i 代表参考集。我们希望鼓励推理子组内部的多样性:每个推理回答应带来其他回答尚未覆盖的更新方向。对于推理回答 i ∈ G_R,R_i = G_R \ {i} 是其推理同伴(排除自身)。高的 ν^(i) 意味着该回答引起了一个未被其他推理对齐回答覆盖的策略更新方向。另一方面,对于记忆对齐的回答 i ∈ G_M,我们设 R_i = G_R。这里,高的 ν^(i) 意味着该回答远离推理对齐的更新方向,因此其训练信号应被抑制。如果 R_i 为空,我们设 ν^(i)=0。
由于分数 ν^(i) 在 G_R 和 G_M 中可能有不同范围,我们在每个子组内分别应用最小-最大归一化,得到 ν̅^(i) ∈ [0,1],从而在两个子组之间产生可比较的探索信号。
### 3.5 方向感知奖励塑造
探索分数 ν^(i) 告诉我们对于每个回答,其更新方向是增强还是削弱推理。为了将此信号纳入策略优化,我们使用它来塑造原始奖励 r^(i) 为 r̃^(i):
r̃^(i) = { r^(i) + λ_+ * ν̅^(i) , 若 i ∈ G_R; r^(i) - λ_- * ν̅^(i) , 若 i ∈ G_M }, (12)
其中 λ_+, λ_- ≥ 0 控制塑造强度。相反的符号反映了一个单一原则:放大将策略移向推理的更新方向,减少将其移离推理的更新方向。将 r^(i) ∈ {-1,+1} 与子组相似文章
提示引导的多样化策略优化用于LLM推理
本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
多轮推理中信息分片段到达时的处理:可扩展分片与记忆增强强化学习
本文针对大语言模型在多轮对话中因信息分散而表现不佳的“迷失在对话”问题,提出了一种可扩展的分片流水线,将单轮问答数据集转化为多轮训练数据,并利用基于可验证奖励的强化学习训练一个维持紧凑滚动记忆的记忆增强策略,从而提高了多轮推理准确性,并零样本泛化到更困难的任务。
当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化
本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。