行为诱导的Mirror-Prox时序差分学习实现更快的离策略预测
摘要
本文提出了STHTD-MP,一种行为诱导的Mirror-Prox时序差分方法,用于强化学习中的更快速离策略预测。该方法用行为策略贝尔曼矩阵替换协方差度量,并提供了收敛性分析和实验比较。
arXiv:2605.28849v1 公告类型:新
摘要:梯度时序差分方法通过线性函数近似实现了稳定的离策略预测,但其实际性能受到辅助变量度量所诱导的几何结构的强烈影响。现有的Mirror-Prox TD方法通常使用特征协方差度量,而混合TD方法表明,行为策略转移信息可以提供更具信息性的更新几何结构。本文提出了一种行为诱导的Mirror-Prox时序差分方法,称为STHTD-MP,该方法在原始-对偶鞍点公式中用行为策略贝尔曼矩阵的对称部分替换协方差度量。该方法对原始变量和辅助变量使用单一学习率,并对得到的混合鞍点算子应用Mirror-Prox预测-校正步骤。我们在标准随机逼近假设下提供了固定策略线性预测的形式化收敛性分析:行为诱导度量是正定的,联合均值系统是赫尔维茨的,有界性通过李雅普诺夫论证得到保证,随机递归通过ODE方法收敛。我们进一步推导了投影oracle遍历间隙界,并基于确定性Mirror-Prox误差矩阵的谱半径与GTD2-MP进行了精确均值算子比较。分析表明,当行为诱导度量改善了鞍点几何结构时,STHTD-MP可以具有比GTD2-MP更小的均值收缩因子。在两个状态、随机游走和Boyan Chain基准上的精确数值均值算子分析支持了这一条件,而Baird反例被识别为严格假设失效的奇异边界情况。
查看缓存全文
缓存时间: 2026/05/29 09:10
# 基于行为诱导的镜像代理时间差分学习以实现更快的离轨策略预测
来源:https://arxiv.org/html/2605.28849
Yuchen Shen, Shandong Yang, Chao Li, Guang Yang, Wenhao Wang
###### 摘要
梯度时间差分方法在线性函数逼近下提供稳定的离轨策略预测,但其实际性能强烈受辅助变量度量所诱导的几何形状的影响。现有的镜像代理TD方法通常使用特征协方差度量,而混合TD方法表明行为策略转移信息能提供信息量更丰富的更新几何形状。本文提出一种基于行为诱导的镜像代理时间差分方法,称为STHTD-MP,它将原始对偶鞍点公式中的协方差度量替换为行为策略Bellman矩阵的对称部分。该方法对原始变量和辅助变量保持单一学习率,并对所得的混合鞍点算子应用镜像代理预测-校正步骤。我们在标准随机逼近假设下对固定策略线性预测进行了形式化收敛分析:行为诱导度量正定,联合均值系统Hurwitz,有界性由Lyapunov论证保证,随机递归通过ODE方法收敛。我们还推导了投影预言机遍历间隙界,并基于确定性镜像代理误差矩阵的谱半径给出了与GTD2-MP的精确均值算子比较。分析表明,当行为诱导度量改进鞍点几何形状时,STHTD-MP可以比GTD2-MP具有更小的均值收缩因子。在二状态、随机游走和Boyan链基准上的精确数值均值算子分析支持了这一条件,而Baird反例被识别为严格假设失效的奇异边界情况。在100次独立运行上的实验报告了两个标量摘要的均值和标准差——稳态AUC(定义为每条轨迹最后50%的时间平均RMSVE)和最终RMSVE——并表明STHTD-MP与强在线TD基线具有竞争力,其经验优势依赖于几何形状和视界。
###### 关键词:强化学习,离轨策略预测,时间差分学习,镜像代理,鞍点优化,行为诱导度量
††journal:Neurocomputing\\affiliation [aff1]organization=南京邮电大学, city=南京, country=中国\\affiliation [aff2]organization=南京大学计算机科学与技术系, city=南京, country=中国\\affiliation [aff3]organization=国防科技大学电子对抗学院, city=合肥, country=中国
## 1 引言
时间差分(TD)学习是强化学习中值预测的核心机制[20 (https://arxiv.org/html/2605.28849#bib.bib2),17 (https://arxiv.org/html/2605.28849#bib.bib1)]。然而,在使用函数逼近的离轨策略预测中,经典TD可能会发散,因为采样、自举和逼近以不稳定方式相互影响[1 (https://arxiv.org/html/2605.28849#bib.bib4),21 (https://arxiv.org/html/2605.28849#bib.bib3)]。这促使了梯度TD算法(如GTD、GTD2、TDC及其扩展)的发展,这些算法通过引入辅助变量并优化投影Bellman误差目标来恢复稳定性[19 (https://arxiv.org/html/2605.28849#bib.bib6),18 (https://arxiv.org/html/2605.28849#bib.bib7),13 (https://arxiv.org/html/2605.28849#bib.bib8),14 (https://arxiv.org/html/2605.28849#bib.bib9)]。
梯度TD方法的稳定性本身并不能解决快速学习的问题。有两个问题尤为关键。首先,许多梯度TD算法使用独立的主学习率和辅助学习率,使得相对步长调优变得不简单。TD学习的鞍点和近端视角通过将策略评估重写为原始对偶问题,提供了单时间尺度的替代方案[12 (https://arxiv.org/html/2605.28849#bib.bib12),11 (https://arxiv.org/html/2605.28849#bib.bib11)]。其次,即使在相同的鞍点框架内,辅助度量决定了均值算子的几何形状,并可能强烈影响收敛速度。标准的GTD2型鞍点方法使用特征协方差度量 \(C = \mathbb{E}_\mu[\phi\phi^\top]\)。相比之下,混合TD思想表明,行为策略转移矩阵包含 \(C\) 本身无法捕捉的有用几何信息[8 (https://arxiv.org/html/2605.28849#bib.bib10)]。
本文探讨是否可以利用行为策略转移信息来获得更快的镜像代理TD方法。我们通过将原始对偶TD目标中的协方差度量替换为对称的行为诱导Bellman度量 \(H = \operatorname{sym}(A_\mu)\),并应用镜像代理预测-校正步骤[15 (https://arxiv.org/html/2605.28849#bib.bib13),9 (https://arxiv.org/html/2605.28849#bib.bib14)]来回答这个问题。所得方法STHTD-MP可视为GTD2-MP的行为诱导对应版本。两种方法都使用镜像代理,但它们用不同的度量来塑造鞍点算子。
本文做出以下贡献。
- 1. 我们推导了STHTD-MP,一种用于离轨策略线性预测的单时间尺度行为诱导镜像代理TD方法。该方法使用对称的行为策略Bellman矩阵作为辅助度量。
- 2. 我们证明了在标准有限状态假设下行为诱导度量是正定的,并且所得联合均值系统是Hurwitz的。在标准随机逼近条件下,底层单时间尺度混合递归收敛到投影Bellman不动点。
- 3. 我们提供了超越大O符号的收敛速度分析。除了随机遍历间隙界之外,我们还通过确定性镜像代理误差矩阵的谱半径推导了与GTD2-MP的精确均值算子比较。
- 4. 我们计算了四个基准问题的精确有限状态均值算子。数值谱分析表明,在二状态、随机游走和Boyan链问题上,STHTD-MP的确定性均值收缩因子小于GTD2-MP,而Baird反例是严格假设失效的奇异边界情况。
- 5. 我们使用更强的基线、不相交的调优/评估种子以及100次独立评估运行进行了随机实验。结果表明,STHTD-MP在在线一阶TD方法中具有竞争力,并且行为诱导度量的经验优势取决于任务几何形状和评估视界。
结果图景依赖于几何形状。当行为诱导度量比协方差度量产生更有利的鞍点几何形状时,它会改进镜像代理均值算子。我们通过精确谱比较使这一条件明确,并通过数值均值算子分析和随机实验表明,它在几个标准预测基准上成立。
## 2 背景
### 2.1 符号
我们考虑一个折扣马尔可夫决策过程 \((\mathcal{S},\mathcal{A},P,r,\gamma)\),其中 \(\mathcal{S}\) 是有限状态空间,\(\mathcal{A}\) 是有限动作空间,\(P(s'|s,a)\) 是转移核,\(r(s,a,s')\) 是奖励,\(\gamma \in (0,1]\) 是折扣因子。目标策略记为 \(\pi\),行为策略记为 \(\mu\)。数据由 \(\mu\) 生成,而需要估计 \(\pi\) 的值函数。除非另有说明,所有期望均针对行为策略 \(\mu\) 诱导的平稳轨迹,并使用重要性采样校正目标策略Bellman项。
对于策略 \(\nu \in \{\pi,\mu\}\),令 \(P_\nu \in \mathbb{R}^{|\mathcal{S}| \times |\mathcal{S}|}\) 表示由 \(\nu\) 诱导的状态转移矩阵:
\[
[P_\nu]_{ss'} = \sum_{a \in \mathcal{A}} \nu(a|s) P(s'|s,a).
\]
令 \(d_\mu\) 为 \(P_\mu\) 的平稳分布,并令
\[
D_\mu = \operatorname{diag}(d_\mu)
\]
为相应的对角权重矩阵。
我们使用线性值近似 \(v_\theta(s) = \theta^\top \phi(s)\),其中 \(\phi(s) \in \mathbb{R}^d\) 是特征向量,\(\theta \in \mathbb{R}^d\) 是主参数。特征矩阵为
\[
\Phi = \begin{pmatrix} \phi(s_1)^\top \\ \cdots \\ \phi(s_{|\mathcal{S}|})^\top \end{pmatrix} \in \mathbb{R}^{|\mathcal{S}| \times d}.
\]
为简洁起见,我们记 \(\phi_t = \phi(s_t)\) 和 \(\phi_{t+1} = \phi(s_{t+1})\)。当下一个状态根据目标策略转移采样时,记 \(\phi_{t+1}^\pi\);根据行为策略转移采样时,记 \(\phi_{t+1}^\mu\)。在下面的基于样本的离轨策略更新中,\(\phi_{t+1}\) 是在 \(\mu\) 下观测到的下一个状态特征,\(\rho_t\) 校正目标策略Bellman项。重要性比率为
\[
\rho_t = \frac{\pi(a_t|s_t)}{\mu(a_t|s_t)}.
\]
离轨策略TD误差定义为
\[
\delta_t = r_t + \gamma \theta_t^\top \phi_{t+1} - \theta_t^\top \phi_t.
\]
本文使用的关键矩阵是
\[
A_\pi = \mathbb{E}\left[ \rho_t \phi_t (\phi_t - \gamma \phi_{t+1})^\top \right], \quad b = \mathbb{E}\left[ \rho_t r_t \phi_t \right].
\]
等价地,以矩阵形式,
\[
A_\pi = \Phi^\top D_\mu (I - \gamma P_\pi) \Phi, \quad b = \Phi^\top D_\mu r_\pi,
\]
其中 \(r_\pi(s) = \mathbb{E}_{a \sim \pi(\cdot|s), s' \sim P(\cdot|s,a)} [r(s,a,s')]\)。投影Bellman方程为 \(A_\pi \theta = b\)。辅助变量记为 \(y \in \mathbb{R}^d\),理论分析中使用的联合变量为
\[
z = \begin{pmatrix} \theta \\ y \end{pmatrix} \in \mathbb{R}^{2d}.
\]
### 2.2 离轨策略TD与鞍点公式
梯度TD方法通过引入辅助变量稳定离轨策略学习,但标准变体通常涉及值和辅助变量的独立学习率[19 (https://arxiv.org/html/2605.28849#bib.bib6),18 (https://arxiv.org/html/2605.28849#bib.bib7)]。最近的有限样本和随机逼近研究进一步阐明了耦合递归、双时间尺度动力学和马尔可夫噪声的作用[5 (https://arxiv.org/html/2605.28849#bib.bib20),10 (https://arxiv.org/html/2605.28849#bib.bib21),6 (https://arxiv.org/html/2605.28849#bib.bib25)]。鞍点观点从目标函数开始:
\[
\min_\theta \max_y L(\theta,y) = \langle b - A_\pi \theta, y \rangle - \frac{1}{2} \| y \|_M^2,
\]
其中 \(M\) 是正定度量矩阵。如果 \(M\) 选择得当,解仍然满足 \(A_\pi \theta = b\),同时优化几何发生变化。近端梯度TD及相关方法利用这一公式获得稳定的单时间尺度更新[12 (https://arxiv.org/html/2605.28849#bib.bib12),11 (https://arxiv.org/html/2605.28849#bib.bib11)]。
## 3 单时间尺度混合TD
混合TD方法利用行为策略信息改变TD更新方向。在本文中,我们定义行为策略Bellman矩阵
\[
A_\mu = \mathbb{E}\left[ \phi_t (\phi_t - \gamma \phi_{t+1}^\mu)^\top \right],
\]
其中 \(\phi_{t+1}^\mu\) 表示由行为策略诱导的下一个状态特征。由于 \(A_\mu\) 不一定对称,辅助度量取为
\[
H = \frac{1}{2} (A_\mu + A_\mu^\top).
\]
STHTD的均值更新为
\[
\begin{aligned}
y_{t+1} &= y_t + \alpha_t (b - A_\pi \theta_t - H y_t), \\
\theta_{t+1} &= \theta_t + \alpha_t A_\pi^\top y_t.
\end{aligned}
\]
其基于样本的离轨策略形式为
\[
\begin{aligned}
\theta_{t+1} &= \theta_t + \alpha_t \rho_t (\phi_t - \gamma \phi_{t+1}) \phi_t^\top y_t, \\
y_{t+1} &= y_t + \alpha_t \Big[ (\rho_t \delta_t - \phi_t^\top y_t + \tfrac{1}{2} \gamma \phi_{t+1}^\top y_t) \phi_t + \tfrac{1}{2} \gamma \phi_t^\top y_t \phi_{t+1} \Big].
\end{aligned}
\]
与协方差度量辅助更新相比,STHTD辅助更新包含涉及 \(\phi_{t+1}\) 的额外混合项。
## 4 镜像代理校正
方程(10)中的鞍点结构诱导了一个单调算子
\[
F(z) = \begin{pmatrix} -A_\pi^\top y \\ A_\pi \theta + H y - b \end{pmatrix}, \quad z = (\theta, y).
\]
镜像代理首先在当前点评估算子以形成中间预测,然后使用预测点校正最终更新[15 (https://arxiv.org/html/2605.28849#bib.bib13),9 (https://arxiv.org/html/2605.28849#bib.bib14)]。将此思想应用于方程(14)得到以下更新。令
\[
\begin{aligned}
\theta_t^m &= \theta_t + \alpha_t \rho_t (\phi_t - \gamma \phi_{t+1}) \phi_t^\top y_t, \\
y_t^m &= y_t + \alpha_t \Big[ (\rho_t \delta_t - \phi_t^\top y_t + \tfrac{1}{2} \gamma \phi_{t+1}^\top y_t) \phi_t + \tfrac{1}{2} \gamma \phi_t^\top y_t \phi_{t+1} \Big].
\end{aligned}
\]
利用中间TD误差
\[
\delta_t^m = r_t + \gamma (\theta_t^m)^\top \phi_{t+1} - (\theta_t^m)^\top \phi_t,
\]
STHTD-MP执行
\[
\begin{aligned}
\theta_{t+1} &= \theta_t + \alpha_t \rho_t (\phi_t - \gamma \phi_{t+1}) \phi_t^\top y_t^m, \\
y_{t+1} &= y_t + \alpha_t \Big[ (\rho_t \delta_t^m - \phi_t^\top y_t^m + \tfrac{1}{2} \gamma \phi_{t+1}^\top y_t^m) \phi_t + \tfrac{1}{2} \gamma \phi_t^\top y_t^m \phi_{t+1} \Big].
\end{aligned}
\]
该方法使用单一学习率,并且每步一阶更新成本大约翻倍,与其他额外梯度方法类似。
## 5 理论分析
本节形式化收敛论证,用于固定策略线性预测,并在标准随机逼近假设下建立STHTD-MP的收敛性。我们证明行为诱导度量 \(H\) 是正定的,使得联合均值系统Hurwitz,并推导了随机递归的有界性和收敛性。此外,我们通过确定性镜像代理误差矩阵的谱半径提供了与GTD2-MP的精确均值算子比较。相似文章
用于离策略时序差分预测的行为感知辅助修正
本文提出用于离策略时序差分预测的行为感知辅助修正,引入了BA-TDC和BA-TDRC算法,这些算法用行为贝尔曼矩阵替代辅助协方差矩阵,以提高稳定性和收敛性。理论分析和在标准基准上的实验验证了所提方法的有效性。
HINT-SD: 面向长程智能体的目标性事后自我蒸馏
HINT-SD 提出了一种目标性自我蒸馏框架,该框架从完整轨迹中选择与失败相关的动作,以改进长程 LLM 智能体的训练,相比密集反馈基线,性能提升高达 18.80%,训练速度提升 2.26 倍。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。
用于稳定多智能体策略学习的度量梯度投影
介绍HPML,一种将多智能体系统的联合更新场投影到度量梯度分量上以稳定和改进多智能体强化学习的方法。它提供了理论保证,并在CTDE基准测试上展示了改进的稳定性和回报。
基于后验混合贝叶斯信念的正则化离线策略优化
本文介绍了后验混合贝叶斯信念(PhyB),这是一个将贝叶斯强化学习中的期望重新表述为动力学模型的凸组合的框架,从而能够实现具有有界目标差异和最新性能的高效正则化离线策略优化。