用于离策略时序差分预测的行为感知辅助修正

arXiv cs.AI 论文

摘要

本文提出用于离策略时序差分预测的行为感知辅助修正,引入了BA-TDC和BA-TDRC算法,这些算法用行为贝尔曼矩阵替代辅助协方差矩阵,以提高稳定性和收敛性。理论分析和在标准基准上的实验验证了所提方法的有效性。

arXiv:2605.28855v1 Announce Type: new 摘要:使用函数近似的时序差分学习在离策略采样下可能不稳定。TDC通过辅助协方差修正稳定离策略TD,而TDRC在单时间尺度递归中进一步正则化该修正。本文在线性预测设置中研究了行为感知的辅助协方差几何替代,该设置是理解值函数近似特征空间动力学的标准局部模型。我们首先将TDC辅助矩阵(C)替换为行为贝尔曼矩阵(A_\mu),得到BA-TDC,然后对同一行为感知方程进行正则化,得到BA-TDRC。这种两步构造将行为感知几何的贡献与正则化的贡献分离开来。线性分析还为神经网络值近似中出现的辅助几何设计问题提供了一个易处理的模型,其中特征协方差和时间转移矩阵共同塑造最后一层的修正动力学。我们给出了有限状态均值系统公式,证明了在实例化均值系统的Hurwitz稳定性条件下的不动点保持和几乎必然收敛,并通过精确线性误差递归的谱半径比较了确定性均值速率。在二状态反例、Baird反例、随机游走和Boyan链上的实验表明,行为感知替代本身在某些任务上可能非常有益,但正则化对于在更困难设置下获得稳健性能是必要的。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:10

# 行为感知的离策略时序差分预测辅助校正  
来源:https://arxiv.org/html/2605.28855  
Zhiang He · Yuchen Shen · Shangdong Yang · Chao Li · Guang Yang · Wenhao Wang  

###### 摘要  
时序差分学习结合函数近似在离策略采样下可能不稳定。TDC通过辅助协方差校正稳定了离策略TD,而TDRC进一步将该校正正则化为单时间尺度递推。本文研究了在标准线性预测设置中(即理解值函数近似特征空间动态的标准局部模型)用行为感知的辅助协方差几何替换的方案。我们首先将TDC的辅助矩阵 \(C\) 替换为行为贝尔曼矩阵 \(A_{\mu}\),得到BA-TDC,然后将同一行为感知方程正则化得到BA-TDRC。这种两步构造将行为感知几何的贡献与正则化的贡献分离。线性分析还为神经网络值近似中出现的辅助几何设计问题提供了一个可处理的模型,其中特征协方差和时间转移矩阵共同塑造最后一层的校正动态。我们给出了有限状态均值系统公式,证明了在实例化均值系统满足赫尔维茨稳定性条件时的不动点保持和几乎必然收敛,并通过精确线性误差递归的谱半径比较了确定性均值速率。在双状态反例、贝尔德反例、随机游走和博扬链上的实验表明,行为感知替换本身在某些任务上可能非常有益,但在更困难的环境中,正则化对于鲁棒性能是必要的。  

###### 关键词:强化学习、离策略预测、时序差分学习、TDRC、行为感知校正、随机逼近  

††期刊:Neural Networks  

\affiliation[aff1]organization=南京邮电大学, city=南京, country=中国  
\affiliation[aff2]organization=南京大学计算机科学与技术系, city=南京, country=中国  
\affiliation[aff3]organization=国防科技大学电子对抗学院, city=合肥, country=中国  

## 1 引言  
时序差分(TD)学习是强化学习中策略评估的基本机制[15 (https://arxiv.org/html/2605.28855#bib.bib2),11 (https://arxiv.org/html/2605.28855#bib.bib1)]。然而,在带有线性函数近似的离策略预测中,自举、近似和离策略采样的结合可能导致发散[1 (https://arxiv.org/html/2605.28855#bib.bib4),16 (https://arxiv.org/html/2605.28855#bib.bib3)]。梯度TD算法(如GTD2和TDC)通过引入辅助变量并优化投影贝尔曼误差目标来解决这个问题[14 (https://arxiv.org/html/2605.28855#bib.bib5),12 (https://arxiv.org/html/2605.28855#bib.bib6),9 (https://arxiv.org/html/2605.28855#bib.bib7)]。最近,TDRC在TDC基础上添加了正则化校正,并使用共享学习率,产生了一种实用的单时间尺度变体,具有改进的稳定性[5 (https://arxiv.org/html/2605.28855#bib.bib8)]。  

若干相关的TD变体修改了离策略预测机制的不同部分。近端TD和鞍点TD公式提供了梯度TD学习的单时间尺度视角[8 (https://arxiv.org/html/2605.28855#bib.bib18),7 (https://arxiv.org/html/2605.28855#bib.bib17)]。强调TD通过用后续或强调迹重新加权更新来稳定离策略学习[13 (https://arxiv.org/html/2605.28855#bib.bib11)],其收敛性质和相关离策略评估思想在[17 (https://arxiv.org/html/2605.28855#bib.bib12),6 (https://arxiv.org/html/2605.28855#bib.bib13)]中得到了进一步研究。这是一条重要的研究路线,但基于迹的加权机制在重要性比率剧烈波动时仍可能遭受高方差,而强调式的改进仍然必须控制累积后续权重引起的方差。其他离策略变体直接改变主TD校正方向。这些方法引发了关于更新几何如何影响学习的更广泛问题,但本文特别关注TDC和TDRC周围的校正族:BA-TDC和BA-TDRC保持相同的主校正结构,仅修改辅助校正几何。  

本文探究是否可以通过使用行为策略转移几何使辅助校正项更具信息性。在TDC和TDRC中,辅助变量由特征协方差项 \(C = \mathbb{E}_\mu[\phi_t \phi_t^\top]\) 驱动。该协方差度量忽略了行为策略如何随时间移动特征。我们将此协方差校正替换为行为策略贝尔曼矩阵 \(A_\mu = \mathbb{E}_\mu[\phi_t (\phi_t - \gamma \phi_{t+1})^\top]\)。未经正则化的替换得到BA-TDC;添加TDRC风格的正则化得到BA-TDRC。使用有限状态线性设置是因为它可以精确隔离辅助几何:矩阵 \(C\)、\(A_\mu\)、\(A_\pi\) 和 \(D_\pi\) 都可以计算和比较。这种受控设置也与神经网络值近似相关联。深度值函数联合学习特征映射和预测头,最后一层或局部线性化动态由经验特征协方差和时间特征转移矩阵共同决定,而不仅仅是状态值。因此,提出的替换 \(C \mapsto A_\mu\) 可以解读为神经网络强化学习中更广泛设计问题的受控线性模型:辅助校正目标不仅应反映哪些特征被采样,还应反映行为策略如何在自举目标之间传输学到的特征。有限状态分析在解决深度网络中非线性特征漂移、在线矩阵估计和近似误差等额外困难之前,先隔离了此几何[5 (https://arxiv.org/html/2605.28855#bib.bib8),10 (https://arxiv.org/html/2605.28855#bib.bib9)]。  

贡献如下。  
- 1. 我们推导了BA-TDC和BA-TDRC,将行为感知替换 \(C \mapsto A_\mu\) 与正则化的附加效果分开。  
- 2. 我们制定了其精确的有限状态均值动态,证明了在实例化均值系统满足赫尔维茨稳定性条件下的随机近似收敛性,并通过精确有限状态矩阵计算在数值上为每个基准验证了该条件。  
- 3. 我们通过确定性线性误差递归的谱半径比较收敛速度,给出了一个可验证的有限状态均值速率准则。  
- 4. 我们在四个标准离策略预测基准上评估了模块化增量:TDC → BA-TDC 和 TDRC → BA-TDRC。  

## 2 背景  

### 2.1 符号说明  
我们考虑一个有限马尔可夫决策过程,其状态空间为 \(\mathcal{S}\),动作空间为 \(\mathcal{A}\),转移核为 \(P\),奖励为 \(r\),目标策略为 \(\pi\),行为策略为 \(\mu\),折扣因子为 \(\gamma \in (0,1)\)。数据在 \(\mu\) 下采样,而估计的是 \(\pi\) 的值函数。对于策略 \(\nu \in \{\pi, \mu\}\),令 \(P_\nu\) 表示由 \(\nu\) 诱导的状态转移矩阵,\(d_\mu\) 为 \(P_\mu\) 的平稳分布。记 \(D_\mu = \operatorname{diag}(d_\mu)\)。值近似是线性的:  
\[
v_\theta(s) = \theta^\top \phi(s), \quad \phi(s) \in \mathbb{R}^d, \quad \theta \in \mathbb{R}^d.
\tag{1}
\]  
特征矩阵为 \(\Phi \in \mathbb{R}^{|\mathcal{S}| \times d}\),其第 \(s\) 行为 \(\phi(s)^\top\)。为简洁起见,记 \(\phi_t = \phi(s_t)\) 和 \(\phi_{t+1} = \phi(s_{t+1})\)。重要性比率为  
\[
\rho_t = \frac{\pi(a_t | s_t)}{\mu(a_t | s_t)}.
\tag{2}
\]  
TD误差以紧凑形式写作  
\[
\delta_t = r_t - \theta_t^\top (\phi_t - \gamma \phi_{t+1}).
\tag{3}
\]  
除非另有说明,所有期望均在平稳行为轨迹下进行。标准的投影贝尔曼矩阵为  
\[
A_\pi = \mathbb{E}_\mu[\rho_t \phi_t (\phi_t - \gamma \phi_{t+1})^\top], \quad b = \mathbb{E}_\mu[\rho_t r_t \phi_t], \quad C = \mathbb{E}_\mu[\phi_t \phi_t^\top].
\tag{4}
\]  
投影贝尔曼不动点满足 \(A_\pi \theta = b\)。我们还使用了目标策略下个特征耦合矩阵  
\[
D_\pi = \mathbb{E}_\mu[\rho_t \gamma \phi_{t+1} \phi_t^\top],
\tag{5}
\]  
以及行为策略贝尔曼矩阵  
\[
A_\mu = \mathbb{E}_\mu[\phi_t (\phi_t - \gamma \phi_{t+1})^\top].
\tag{6}
\]  
向量 \(w \in \mathbb{R}^d\) 表示辅助校正变量。记 \(\|x\|\) 为欧几里得范数,\(I\) 为单位矩阵,\(\rho(M)\) 为矩阵 \(M\) 的谱半径。分析中视 \(z_t = (\theta_t, w_t)\) 为 \(\mathcal{F}_t\) 可测;均值漂移推导中的条件期望是在给定 \(\mathcal{F}_t\) 下对 \((s_t, a_t, s_{t+1})\) 取的。  

### 2.2 TDC和TDRC  
梯度TD方法优化均方投影贝尔曼误差(MSPBE)  
\[
J(\theta) = \frac{1}{2} (b - A_\pi \theta)^\top C^{-1} (b - A_\pi \theta).
\tag{7}
\]  
TDC中的辅助变量估计  
\[
w_\theta = C^{-1} (b - A_\pi \theta), \quad \text{或等价地} \quad C w_\theta = b - A_\pi \theta.
\tag{8}
\]  
借助该辅助变量,负MSPBE梯度可以写作一个校正方向,从而得到标准的TDC样本更新:  
\[
\begin{aligned}
\theta_{t+1} &= \theta_t + \alpha_t \rho_t \left( \delta_t \phi_t - \gamma \phi_{t+1} \phi_t^\top w_t \right), \\
w_{t+1} &= w_t + \beta_t (\rho_t \delta_t - \phi_t^\top w_t) \phi_t.
\end{aligned}
\tag{9}
\]  
\(w\) 递归是对 \(C w = b - A_\pi \theta\) 的随机近似,因为样本项 \((\rho_t \delta_t - \phi_t^\top w_t) \phi_t\) 的均值为 \(b - A_\pi \theta - C w\)。TDC递归的实际弱点在于辅助方程可能病态,并且通常需要单独的学习率。因此TDC的性能可能严重依赖于主步长 \(\alpha_t\) 和辅助步长 \(\beta_t\) 的相对调参,特别是在辅助变量变化迅速的离策略反例中。  

TDRC将该校正方程正则化。TDRC不求解式(8),而是使用正则化方程  
\[
(C + \eta I) w_\theta = b - A_\pi \theta, \quad \eta > 0,
\tag{11}
\]  
这等价于在辅助最小二乘问题中添加岭惩罚。它将辅助矩阵从 \(C\) 变为 \(C + \eta I\),改善了 \(C\) 近乎奇异时的条件,并阻尼了校正变量的快速增长。均值辅助漂移变为 \(b - A_\pi \theta - (C + \eta I) w\)。在本文使用的单学习率形式中,TDRC为  
\[
\begin{aligned}
\theta_{t+1} &= \theta_t + \alpha_t \rho_t \left( \delta_t \phi_t - \gamma \phi_{t+1} \phi_t^\top w_t \right), \\
w_{t+1} &= w_t + \alpha_t \left[ (\rho_t \delta_t - \phi_t^\top w_t) \phi_t - \eta w_t \right],
\end{aligned}
\tag{12}
\]  
其中 \(\eta > 0\) 为正则化参数。因此TDRC保持了TDC的主校正方向,但通过正则化协方差方程稳定了辅助递归。这是BA-TDRC的出发点。我们不改变TDC/TDRC的主校正方向,而是保留TDRC正则化辅助方程的思想,并将其协方差矩阵替换为行为感知的贝尔曼矩阵。  

## 3 行为感知辅助校正  
出发点是辅助变量的作用。在TDC和TDRC中,该变量不直接近似值函数;它估计了一个校正向量,用于补偿由离策略自举和函数近似造成的偏差。TDC从协方差方程 \(C w_\theta = b - A_\pi \theta\) 获得该向量,而TDRC将同一方程正则化为 \((C + \eta I) w_\theta = b - A_\pi \theta\)。这些方程稳定且易于采样,因为 \(C = \mathbb{E}_\mu[\phi_t \phi_t^\top]\) 是行为分布下的特征协方差。其局限性在于 \(C\) 仅描述瞬时特征出现情况。它说明了特征被观察的频率,但没有说明行为策略如何将它们从当前状态传输到下一状态。离策略TD的不稳定性本质上是时间性的:更新通过自举将 \(\phi_t\) 和 \(\phi_{t+1}\) 耦合在一起。因此,仅由 \(C\) 塑造的校正变量可能与采样行为轨迹的时间几何不匹配。  

行为策略贝尔曼矩阵  
\[
A_\mu = \mathbb{E}_\mu[\phi_t (\phi_t - \gamma \phi_{t+1})^\top]
\tag{15}
\]  
包含了行为策略下的这种时间特征传输。它保留了当前特征 \(\phi_t\),但减去由行为采样诱导的折扣下一特征。这提示了一种两步修改。首先,将TDC的辅助矩阵 \(C\) 替换为 \(A_\mu\),产生未经正则化的行为感知校正。其次,添加与TDRC相同类型的正则化,产生正则化的行为感知校正。这种设计刻意只改变辅助方程。我们保持主TDC/TDRC更新方向不变,以便比较隔离两个效果:用 \(A_\mu\) 替换 \(C\),然后添加正则化。这对理论和实验都很重要:TD投影不动点得以保持,而瞬态校正几何可以改变。  

为了使替换精确,将基于协方差的辅助方程写作通用形式  
\[
M_C w_\theta = b - A_\pi \theta, \quad M_C = C + \eta I.
\tag{16}
\]  
对应的均值残差为  
\[
b - A_\pi \theta - M_C w.
\tag{17}
\]  
事实上,TDRC中使用的样本残差为  
\[
(\rho_t \delta_t - \phi_t^\top w_t) \phi_t - \eta w_t,
\tag{18}
\]  
其期望为  
\[
\mathbb{E}_\mu[(\rho_t \delta_t - \phi_t^\top w_t) \phi_t - \eta w_t] = b - A_\pi \theta - (C + \eta I) w.
\]

相似文章

通过反事实推理路径减少信用分配方差

arXiv cs.LG

提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。