演员-评论家强化学习中评论家复杂性的评估、度量与控制
摘要
本文引入频谱有效秩熵作为度量指标,用于在演员-评论家强化学习中测量和控制评论家复杂性,并在TD3和PPO实验中证明了其可测量性和可控性。
arXiv:2607.00452v1 公告类型:新 \n摘要:演员-评论家方法依赖于学习到的评论家,但评论家的质量通常仅通过回报、时序差分误差或价值损失间接评估。本文引入评论家复杂性作为演员-评论家强化学习的额外诊断和干预维度。该分析使用频谱有效秩熵(一种对评论家权重矩阵奇异值分布的秩类汇总)来评估评论家模型复杂性。在TD3和PPO实验中,评论家复杂性与回报和蒙特卡洛价值估计偏差一起被追踪。结果表明,评论家复杂性在整个训练过程中是可测量的,并且与训练行为系统性地相关,同时也清楚地表明这种关系在算法、任务和超参数之间是异质的。然后,通过在评论家损失中添加频谱熵惩罚来评估一种直接的复杂性控制干预。该干预可靠地改变了目标频谱量,表明评论家复杂性可以被控制而不仅仅是观察。由于整体复杂性控制结果各不相同,回报效应被视为依赖于任务的证据,而非一般性能声明。
查看缓存全文
缓存时间: 2026/07/02 05:38
# 在演员-评论家强化学习中衡量、测量和控制评论家的复杂度
来源:https://arxiv.org/html/2607.00452
###### 摘要
演员-评论家方法依赖于学习得到的评论家,但评论家的质量通常仅通过回报、时间差分误差或价值损失来间接评估。本文引入评论家复杂度作为演员-评论家强化学习的一个额外诊断和干预维度。分析采用频谱有效秩熵——一种类似于秩的摘要,基于评论家权重矩阵的奇异值分布——来评估评论家模型的复杂度。在TD3和PPO实验中,跟踪评论家复杂度以及回报和蒙特卡洛价值估计偏差。结果表明,评论家复杂度在整个训练过程中是可测量的,并且与训练行为系统性地关联,同时也清晰地表明这种关系在不同算法、任务和超参数之间是异质的。随后,通过在评论家损失中添加频谱熵惩罚来评估一种直接复杂度控制干预。这种干预可靠地改变了目标频谱量,表明评论家复杂度不仅可以被观察,而且可以被控制。回报效应被视为依赖于任务的证据,而非通用的性能声明,因为总体复杂度控制结果各不相同。
## 1 引言
演员-评论家强化学习依赖于学习得到的评论家来估计价值并指导策略改进。这使得评论家成为进步和失败的核心来源。如果评论家高估了某些状态或动作,传播了自举误差,或者学习了不必要的不规则价值函数,演员可能会针对扭曲的目标进行优化。
因此,许多演员-评论家研究都关注改进评论家。双Q学习通过将动作选择与价值评估分离来减少最大化偏差[1 (https://arxiv.org/html/2607.00452#bib.bib1),2 (https://arxiv.org/html/2607.00452#bib.bib2)],而TD3通过裁剪双评论家、延迟策略更新和目标策略平滑将此思想扩展到连续控制[4 (https://arxiv.org/html/2607.00452#bib.bib4)]。PPO提供了一个有用的在策略对比,其中评论家在不同的更新机制下进行训练[3 (https://arxiv.org/html/2607.00452#bib.bib3)]。这些方法通过目标、架构或优化程序间接提高评论家的可靠性。
另一种补充途径是评论家训练过程本身:评论家复杂度是否可以在训练过程中被测量、与性能相关联,以及被控制。指导性假设是奥卡姆剃刀式的:在捕捉到相关价值结构的评论家中,更简单的评论家可能更可靠,这与更广泛的神经网络泛化论点相匹配,这些论点使用基于范数和谱的量作为复杂度的代理[6 (https://arxiv.org/html/2607.00452#bib.bib6),7 (https://arxiv.org/html/2607.00452#bib.bib7)]。这并不意味着较低的复杂度总是更好。过于简单的评论家可能欠拟合,而过于复杂的评论家可能高估、变得不稳定或表示尖锐的价值伪影。
为了验证这一假设,使用频谱有效秩熵来衡量评论家复杂度。该指标总结了评论家层使用其奇异方向的分散程度:高熵意味着许多方向都有贡献,而低熵意味着谱集中在少数主导方向上[9 (https://arxiv.org/html/2607.00452#bib.bib9)]。然后,在TD3和PPO训练过程中跟踪该数量,与回报和蒙特卡洛估计的价值估计偏差进行比较,并在独立的实验中通过在评论家损失中添加频谱熵惩罚来直接控制它。
主要结论有意地保持狭窄。评论家频谱复杂度是可测量和可控的,并且以结构化但依赖于任务的方式与演员-评论家性能相关。在所测试的设置中,频谱熵正则化可靠地降低了评论家类似秩的复杂度,并提高了TD3/HalfCheetah-v4的性能,但回报收益并不能在所有任务中干净地迁移。
具体贡献:
- •将评论家复杂度定义为演员-评论家强化学习的一个显式评估维度。
- •使用频谱有效秩熵作为可计算的、类似秩的评论家复杂度度量。
- •提供观察证据表明评论家复杂度与性能和偏差系统性相关,但并非通过简单的单调规则。
- •引入一个频谱熵正则化器,用于在评论家训练期间直接控制评论家复杂度。
- •表明该正则化器可靠地降低了评论家类似秩的复杂度,并可以提高TD3/HalfCheetah-v4的性能,而跨任务的结果仍然好坏参半。
## 2 相关工作
三方面的先前工作最为相关。首先,价值估计偏差是强化学习中的一个标准关注点。双Q学习和深度双Q学习通过将动作选择与价值评估分离来减少最大化偏差[1 (https://arxiv.org/html/2607.00452#bib.bib1),2 (https://arxiv.org/html/2607.00452#bib.bib2)],TD3通过裁剪双评论家、延迟策略更新和目标策略平滑将此动机适应到连续控制[4 (https://arxiv.org/html/2607.00452#bib.bib4)]。PPO被作为在策略对比包含进来[3 (https://arxiv.org/html/2607.00452#bib.bib3)],而SAC主要作为策略熵基线相关:与SAC的最大熵目标不同[5 (https://arxiv.org/html/2607.00452#bib.bib5)],该干预正则化评论家的权重谱,而非策略。
其次,神经网络泛化工作已使用基于范数和谱的量作为复杂度代理[6 (https://arxiv.org/html/2607.00452#bib.bib6),7 (https://arxiv.org/html/2607.00452#bib.bib7)]。频谱归一化表明奇异值控制也可以是一种实用的训练工具[8 (https://arxiv.org/html/2607.00452#bib.bib8)]。有效秩是精确矩阵秩的连续替代,并已被研究作为有效维度的度量[9 (https://arxiv.org/html/2607.00452#bib.bib9)]。
第三,最近的工作将复杂度控制与顿悟和推理联系起来,主要是在变换器或监督组合设置中。Liu等人将顿悟与权重范数和损失景观不匹配联系起来[10 (https://arxiv.org/html/2607.00452#bib.bib10)],而Zhang等人表明初始化尺度和权重衰减可以引导变换器走向基于推理的低复杂度解决方案[11 (https://arxiv.org/html/2607.00452#bib.bib11)]。Musat为固定精度循环或递归变换器风格模型提供了权重范数和柯尔莫哥洛夫复杂度之间的互补理论联系[12 (https://arxiv.org/html/2607.00452#bib.bib12)]。这些论文激发了将复杂度视为可控训练变量的观点;实验在演员-评论家强化学习中的神经评论家上测试了这一想法。
## 3 问题形式化与方法
问题是将评论家复杂度从非正式直觉转化为一个在演员-评论家训练期间可以计算、监控和干预的量。在训练中测量复杂度之前,必须以一种可以从神经评论家参数和激活中计算的方式来定义它。设W∈Rm×nW\\in\\mathbb\{R\}^\{m\\times n\} 表示评论家中的一个权重矩阵,并设σ1≥σ2≥⋯≥σr\\sigma\_\{1\}\\geq\\sigma\_\{2\}\\geq\\cdots\\geq\\sigma\_\{r\} 为其奇异值。
### 3.1 频谱复杂度度量
频谱复杂度度量是秩熵。对于每个评论家权重矩阵,定义归一化的奇异值分布
pi=σi∑jσj\.p\_\{i\}=\\frac\{\\sigma\_\{i\}\}\{\\sum\_\{j\}\\sigma\_\{j\}\}\. (1)
层的秩熵为
H\(W\)=−∑ipilogpi,H\(W\)=\-\\sum\_\{i\}p\_\{i\}\\log p\_\{i\}, (2)
并且聚合的评论家复杂度度量是跨评论家层对该熵的平均值。高熵意味着许多奇异方向有实质性贡献;低熵意味着矩阵由较少的方向主导。有效秩熵是主要的复杂度度量,原因有三。
1. 1.它基于奇异值,因此在训练期间易于从评论家权重矩阵计算。
2. 2.熵标度比原始秩或范数值更易解释:研究人员可以将其解读为跨谱方向的质量扩散。
3. 3.在初步实验中,秩熵与任务性能的相关性高于其他频谱度量,如有效秩或稳定秩。
### 3.2 附加度量
分析将评论家复杂度与三个结果测量联系起来。偏差是当前策略下评论家的带符号误差。在检查点处,冻结策略,通过蒙特卡洛 rollout 从采样状态估计回报,并将评论家预测与该回报进行比较:
Bias\(s\)=Qθ\(s,π\(s\)\)−VMC\(s\)\.\\operatorname\{Bias\}\(s\)=Q\_\{\\theta\}\(s,\\pi\(s\)\)\-V\_\{\\mathrm\{MC\}\}\(s\)\. (3)
正值表示高估,负值表示低估。回报波动性是最后25个监测情节的情节回报标准差。偏差波动性是跨采样评估状态的检查点评论家偏差估计的标准差。这三个量在运行和检查点级别与评论家有效秩熵进行比较。
### 3.3 复杂度控制干预
控制阶段引入一种有针对性的干预:评论家的频谱熵正则化。正则化器惩罚评论家奇异值分布中的熵。对于评论家损失Lcritic\\mathcal\{L\}\_\{\\mathrm\{critic\}\},修改后的目标为
Ltotal=Lcritic+λent∑l∈CH\(Wl\),\\mathcal\{L\}\_\{\\mathrm\{total\}\}=\\mathcal\{L\}\_\{\\mathrm\{critic\}\}\+\\lambda\_\{\\mathrm\{ent\}\}\\sum\_\{\\ell\\in\\mathcal\{C\}\}H\(W\_\{\\ell\}\), (4)
其中C\\mathcal\{C\} 是评论家层的集合,λent\\lambda\_\{\\mathrm\{ent\}\} 实现为 `critic_entropy_coef`。惩罚熵鼓励评论家将其权重谱集中到更少的主导方向,从而降低秩熵。
## 4 结果
所有实验使用PPO或TD3演员-评论家运行,在训练期间记录评论家复杂度、回报和检查点价值偏差测量。TD3使用分离的演员和评论家MLP,带有两个256单元隐藏层,而PPO使用两个64单元隐藏层用于策略和价值网络。除非另有说明,分析仅使用完成的运行。每次运行在单个H20 GPU上执行。
### 4.1 观察分析
观察分析询问在真实训练条件下,评论家复杂度是否与性能和偏差有可测量的关系。它仅使用非受控运行,即未对评论家应用频谱熵正则化器的运行。图2 (https://arxiv.org/html/2607.00452#S4.F2)中显示的子集包含360个在Pendulum-v1和HalfCheetah-v4上的PPO和TD3运行。这些运行变化种子{0,1,2,3,4} \\{0,1,2,3,4\\}、初始化尺度{0.1,1,10} \\{0.1,1,10\\}、评论家权重衰减{0,10−4,10−2} \\{0,10^{-4},10^{-2}\\}和评论家学习率{10−4,3⋅10−4} \\{10^{-4},3\\cdot 10^{-4}\\}。图1 (https://arxiv.org/html/2607.00452#S4.F1)首先检查评论家有效秩熵在训练期间是否变化。图2 (https://arxiv.org/html/2607.00452#S4.F2)然后显示了运行级别的最终复杂度与最终回报之间的关系。综合来看,这些图表明复杂度和回报以结构化但并非纯粹单调的方式相关:低秩熵并不自动更好,高秩熵也并不自动更差。尽管如此,最高回报的运行具有较低的有效秩熵,这表明即使不是简单的单调关系,复杂度也是性能的一个有意义信号。
参见图注图1:非受控Pendulum-v1和HalfCheetah-v4运行中,评论家有效秩熵随归一化训练进度的演变。每个子图汇总了一个算法/任务切片;线条显示检查点中位数,阴影带显示四分位距。该图显示评论家有效秩熵在训练期间通常略有下降,尽管变异性很高。评论家复杂度是一个动态的训练量,而不仅仅是最终运行的摘要。参见图注图2:非受控Pendulum-v1和HalfCheetah-v4运行中,最终回报与评论家有效秩熵之间的运行级别关系。省略了Ant-v4和Walker2d-v4以保持诊断集中于主要基线环境。观察到的最佳回报往往出现在较低的评论家熵处,但这种关系取决于算法和任务,而非遵循通用单调规则。表1:非受控观察分析的运行级别Spearman相关性。x轴变量是最终评论家有效秩熵;每行是一个算法/任务切片。每行汇总了n=90n=90个来自观察扫描的非受控运行。熵与Pendulum上的偏差以及与TD3的最终回报关联最强,表明信号是结构化的但依赖于任务和算法。表1 (https://arxiv.org/html/2607.00452#S4.T1)给出了相同模式的紧凑摘要。最强的关联依赖于任务和算法:Pendulum显示有效秩熵与带符号评论家偏差之间存在强烈的负相关,而TD3在基线任务上显示熵与最终回报之间存在强烈的负相关。这些结果应被视为描述性的而非因果性的,因为关系在任务间是异质的并且受超参数混杂。它们激发了下面的干预:如果复杂度不仅仅是一个被动相关性,那么直接改变它应该会改变训练动态。
### 4.2 复杂度控制干预
主要干预子集包含32个平衡运行:在Pendulum-v1和HalfCheetah-v4上的PPO和TD3,使用种子0和1以及熵系数{0,0.001,0.003,0.01} \\{0,0.001,0.003,0.01\\}。表2 (https://arxiv.org/html/2607.00452#S4.T2)报告了结果。每行对相同的两个种子0和1求平均值,在去重重复完成的运行后。加粗条目表示该算法/任务组内该指标的最佳系数:更高的最终回报、更低的波动性、更小的绝对最终偏差以及更低的秩熵。
表2:在Pendulum-v1和HalfCheetah-v4上的PPO和TD3的主要任务正则化器汇总。所有行使用种子0和1;值为均值±\\pmSEM。加粗表示每个算法/任务块内跨熵系数的最佳值。熵正则化可靠地降低了TD3评论家熵,而最清晰的性能增益出现在中等系数的TD3/HalfCheetah-v4上。在四个主要切片中,正则化器最清楚地移动了TD3的目标度量:随着系数增加,Pendulum-v1和HalfCheetah-v4上的秩熵减小。性能影响并不均匀。最强的回报改进出现在表2 (https://arxiv.org/html/2607.00452#S4.T2)中:在平衡的种子0/1比较下,TD3/HalfCheetah-v4在系数0.0010.001时具有最佳最终回报,而其最低秩熵出现在系数0.010.01时。PPO行显示秩熵变化小得多,并且没有可比的回报效应。
偏差结果更为微妙。最终带符号偏差在四个切片中并未可靠改善。HalfCheetah TD3的波动性度量在方向上更为一致。相似文章
熵正则化演员-评论家方法的精细分析
本文对熵正则化演员-评论家方法进行了精细的理论分析,表明精确的评论家能起到强大的方差缩减作用,使样本复杂度可与确定性策略梯度相媲美,并且当学到的评论家足够准确时,这些优势得以保留。
重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。
ReCrit:面向科学批评推理的过渡感知强化学习
ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。
你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习
本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。
最大熵如何使强化学习更加稳健
本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。