重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
摘要
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。
arXiv:2510.10959v3 宣布类型:替换交叉
摘要:推理能力已成为大型语言模型(LLMs)的核心能力,具有可验证奖励的强化学习(RLVR)作为增强推理能力的关键范式而崭露头角。然而,RLVR训练经常遭遇策略熵坍缩问题,即策略变得过度确定性,阻碍了探索并限制了推理性能。虽然熵正则化是常见的解决方案,但其有效性高度依赖于固定系数,导致在不同任务和模型上表现不稳定。在本工作中,我们重新审视RLVR中的熵正则化,认为其潜力在很大程度上被低估了。我们的分析表明:(i)不同难度的任务需要不同强度的探索,(ii)平衡的探索可能需要策略熵保持在初始水平以下的中等范围内。因此,我们提出自适应熵正则化(AER)框架,通过三个组件动态平衡探索与利用:难度感知的系数分配、初始锚定目标熵和动态全局系数调整。在多个数学推理基准上的实验表明,AER相比基线方法表现出一致的优势,在推理准确性和探索能力上均有改进。
查看缓存全文
缓存时间: 2026/04/20 08:32
# 自适应系数为大语言模型强化学习释放潜能 来源:https://arxiv.org/html/2510.10959 ## 重新审视熵正则化:自适应系数为大语言模型强化学习释放潜能 Xiaoyun Zhang1,3,†Xiaojian Yuan2,†Di Huang1Wang You4 Chen Hu4Jingqing Ruan3Ai Jian4Kejiang Chen2Xing Hu1,∗ 1中科院计算技术研究所处理器芯片全国重点实验室 2中国科学技术大学 3中国科学院大学 4StepFun公司 zhangxiaoyun24@mails\.ucas\.ac\.cnxjyuan@mail\.ustc\.edu\.cn ###### 摘要 推理能力已成为大语言模型(LLM)的核心能力,具有可验证奖励的强化学习(RLVR)成为增强推理能力的关键范式。然而,RLVR训练常常遭遇策略熵坍缩问题,即策略变得过度确定性,阻碍探索并限制推理性能。虽然熵正则化是常见的解决方案,但其有效性对固定系数高度敏感,导致跨任务和模型的不稳定性。本工作重新审视RLVR中的熵正则化,并主张其潜能被严重低估。我们的分析表明:(i)不同难度的任务需要不同的探索强度,(ii)平衡的探索可能需要将策略熵保持在初始熵以下的适度范围内。因此,我们提出自适应熵正则化(AER)——一个通过三个组件动态平衡探索和利用的框架:难度感知系数分配、初始锚定目标熵和动态全局系数调整。在多个数学推理基准上的实验表明,AER持续优于基线方法,提升推理精度和探索能力。 重新审视熵正则化:自适应系数为大语言模型强化学习释放潜能 Xiaoyun Zhang1,3,†Xiaojian Yuan2,†Di Huang1Wang You4Chen Hu4Jingqing Ruan3Ai Jian4Kejiang Chen2Xing Hu1,∗1中科院计算技术研究所处理器芯片全国重点实验室2中国科学技术大学3中国科学院大学4StepFun公司zhangxiaoyun24@mails\.ucas\.ac\.cnxjyuan@mail\.ustc\.edu\.cn 22脚注:Xiaoyun Zhang和Xiaojian Yuan对本工作贡献相等。11脚注:通讯作者。 ## 1 引言 推理能力已成为大语言模型解决数学和编码等复杂任务的关键能力。具有可验证奖励的强化学习(RLVR)最近成为增强此能力的有效范式,推动了OpenAI-o1和DeepSeek-R1等最先进模型的进展(Jaech等,2024;Guo等,2025)。然而,近期研究观察到*策略熵坍缩*可能对RLVR训练构成重大瓶颈(Cui等,2025b;He等,2025;Cheng等,2025;Dai等,2025),与长期存在的探索-利用困境密切相关(Sutton等,1998)。具体来说,模型的策略常常过早收敛到一小套利用性推理轨迹,因而抑制了对更广阔解空间的探索(Chen等,2025b)。这种过早收敛通常表现为训练早期策略熵的快速下降(Yu等,2025),将策略困在局部最优中,导致性能平台期限制了模型整体推理潜能(Cui等,2025b)。 参见图注 图1:AER框架概览。 强化学习中缓解策略熵坍缺的常规方法是引入熵正则化项,明确地惩罚过度确定性的策略并鼓励探索(Schulman等,2017)。尽管该技术简洁直观,但在最近的大语言模型RLVR管道中常被省略(Yu等,2025;Hu等,2025b;Liu等,2025b;Cui等,2025a),因为其有效性对熵系数的选择高度敏感。小系数无法防止熵坍缺,而过大的系数可能导致熵爆炸(Cui等,2025b;Jiang等,2025b)。此外,基础模型或数据集的轻微变化可能使精心调整的系数从有益变为有害(He等,2025)。直观上,探索(高熵)和利用(低熵)之间的平衡应在训练过程中动态变化。固定系数难以应对这种演化的权衡(He等,2025;Cui等,2025b)。这自然引发问题:*我们能否在RLVR训练中自适应地调整熵正则化系数?* 在本工作中,我们重新审视大语言模型RLVR背景下的熵正则化,并主张由于固定系数设计的限制,其潜能被严重低估。受此关注,我们在第3部分进行初步分析,得出两个观察:(*i*)不同难度级别的任务需要不同的探索强度,暗示需要难度感知机制实现样本级熵正则化控制;(*ii*)训练期间有效探索需要将策略熵维持在其初始熵以下的特定目标值。因此,我们提出*自适应熵正则化(AER)*如图1所示,通过自适应系数动态平衡探索和利用,包括三个组件:(*i*)*难度感知系数分配*相对于当前策略估计任务难度,并分配样本级熵系数以实现细粒度熵正则化;(*ii*)*初始锚定目标熵*基于每次运行的初始熵自适应确定目标熵值,在不同设置之间保持一致的相对探索预算;(*iii*)*动态全局系数调整*根据当前策略熵自适应调整熵系数的全局缩放因子,以确保策略熵在训练期间保持在目标熵附近。这些组件一起形成自适应控制器,将策略熵维持在合理范围内,稳定训练同时保留均衡探索。 我们在多个复杂数学推理基准上进行了经验评估,AER在推理性能和多样性方面均显示出一致的改进。我们的贡献总结如下: - •我们进行初步分析,展示探索应适应任务难度,且平衡探索可能需要将策略熵维持在初始熵以下的适度范围内,激励自适应难度感知熵正则化。 - •我们提出*自适应熵正则化(AER)*,一个能够动态自适应地调整熵正则化系数以更好地平衡整个训练中的探索和利用的框架。 - •在多个数学推理基准上的广泛实验表明,AER在推理性能(pass@1)和探索能力(pass@k)上持续优于先进基线,验证了自适应熵正则化在RLVR训练中的潜能。 参见图注 (a)不同系数对简单数据集的影响。参见图注 (b)不同系数对困难数据集的影响。参见图注 (c)各种设置下的初始熵。图2:初步实验结果。(a-b)我们分别展示不同熵系数对简单和困难数据集上的测试精度和平均标记长度的影响。(c)我们演示不同的基础模型、数据集和采样温度将显著影响初始熵的值。 ## 2 相关工作 #### 大语言模型强化学习 强化学习是训练大语言模型的重要范式(Ouyang等,2022;Team等,2023;Lee等,2024;Jian等,2026)。最近,具有可验证奖励的强化学习(RLVR)取得了显著成功,在复杂任务中展现出卓越性能(Guo等,2025;Jaech等,2024;Yang等,2025;He等,2025;Team等,2025;Liu等,2025b;Zeng等,2025;Zhang等,2025a;Luo等,2026)。此外,一系列仅策略方法进一步降低了RLVR的资源负担和复杂性(Shao等,2024;Li等,2024;Hu等,2025a;Yu等,2025;Zheng等,2025a;Li等,2026)。然而,RLVR仍然面临探索-利用困境,表现为策略熵的快速下降,从而限制了大语言模型的性能(Cui等,2025b;Cheng等,2025;He等,2025;Zhang等,2025b)。 #### 强化学习中的探索 探索是强化学习的中心挑战,通常通过理论分析(Cai等,2020;Ishfaq等,2021)、好奇心驱动信号(Pathak等,2017;Burda等;Raileanu和Rocktäschel;Henanff等,2022)和熵最大化(Ziebart等,2008;Toussaint,2009)来处理。在大语言模型背景下,多项研究已采用熵作为性能指标(Cui等,2025b)或作为优势塑造、增强展示阶段或损失掩蔽的启发式方法(Wang等,2025;Cheng等,2025;Zheng等,2025b;Li等,2025d)。熵正则化或KL惩罚有助于控制策略分布(He等,2025;Liu等,2025a),而补充技术如损失重加权(Wang等,2025;Cui等,2025b)和clip-higher(Yu等,2025)进一步缓解熵坍缺。促进探索的其他策略包括调整采样超参数(Chen等,2025a)、执行自反思(Jiang等,2025a)、利用外部验证(Zha等,2025)、通过关键标记训练强调高熵标记(Wang等,2025;Li等,2025c;Jiang等,2025b)和设计自定义内禀信号(Li等,2025a;Dai等,2025;Gao等,2025;Song等,2025)。然而,熵正则化在RLVR中的必要性仍有争议,一些研究质疑其对探索有效性的影响(Ouyang等,2022;Shao等,2024;Hu等,2025b;Cui等,2025b)。 ## 3 初步分析 虽然添加显式熵正则化(例如,目标中的熵损失项)是防止策略变得过度确定性从而缓解熵坍缺的直接即插即用的补救方案,但大多数最近的大语言模型RLVR工作并不包括此技术(Hu等,2025b;Liu等,2025b;Cui等,2025a;Yu等,2025)。然而熵正则化在实践中对系数高度敏感,小系数不能有效防止熵坍缺,而大系数会导致熵爆炸,造成训练不稳定或性能下降(Cui等,2025b)。此外,实验设置的轻微变化可能导致精心选择的系数产生相反效果(He等,2025)。直观上,探索程度应与任务难度相关:在简单任务上过度探索可能引入不必要的随机性并阻碍收敛,而困难任务通常需要更强的探索来逃离局部最优并发现有效的推理轨迹(Li等,2025a,b;Jiang等,2026)。为了检查这一直觉,我们使用GRPO在不同难度级别的数学数据集上训练Qwen3-4B-Base,改变熵正则化强度。111简单任务使用GSM8K,而困难任务由AIME和AMC数据集的混合组成。
相似文章
AEM:用于多轮智能体强化学习的自适应熵调制
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。
打破自回归诅咒:动态认知熵编排的可擦除强化学习用于LLMs
本文提出E³RL,一种使用动态认知熵阈值的强化学习方法,使LLMs能够在生成过程中切除局部逻辑缺陷,克服长程推理中的自回归诅咒,并在AIME等数学推理基准上取得最先进的结果。
驾驭思考者:用于自适应LLM推理的条件熵塑造
本文介绍了条件熵塑造(CES)框架,该框架动态控制LLM中令牌级别的响应熵,以平衡推理深度和简洁性,在数学基准测试上实现更高的准确率同时缩短响应长度。
STARE:惊奇度引导的令牌级优势重加权实现策略熵稳定性
STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节,解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题,在AIME基准上实现了4%-8%的准确率提升。
最大熵如何使强化学习更加稳健
本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。