Dual Advantage Fields
摘要
Dual Advantage Fields (DAF) 是一种用于离线目标条件强化学习的策略提取方法,它将双线性对偶价值模型转化为局部优势信号,通过学习预测特征位移的动作效应模型,并根据位移与目标方向的对齐程度对动作进行评分。该方法被 ICML 2026 决策研讨会接收,在 OGBench 的移动、操控和谜题任务中展示了改进的性能。
arXiv:2606.04188v1 公告类型:新论文
摘要:离线目标条件强化学习需要同时具备长期可达性估计和局部动作比较能力。对偶目标表示提供了捕捉全局目标可达性的价值场,但并未直接指定在给定状态下应优选哪个动作。我们提出了 Dual Advantage Fields,一种策略提取方法,它将双线性对偶价值模型转化为局部优势信号。在双线性对偶参数化下,目标嵌入是价值场关于状态表示的梯度。DAF 学习了一个动作效应模型,该模型预测由动作引起的折现特征位移,并根据该位移与目标方向的对齐程度对动作进行评分。在可实现的场景中,该评分等于目标条件下的 Bellman 优势,从而提供了标准的局部策略改进保证。在 OGBench 的移动、操控和谜题任务上,DAF 提升了聚合的 RLiable 指标,并且在局部正确动作与直接向最终目标移动不同的设置中表现出色。
查看缓存全文
缓存时间: 2026/06/05 02:22
# 对偶优势场(Dual Advantage Fields)
来源:https://arxiv.org/html/2606.04188
\acceptedworkshopnotice 已收录于 ICML 2026 离线数据集到在线自适应决策、黑盒优化到强化学习研讨会。
Alexey Zemtsov¹˒², Maxim Bobrin³, Alexander Nikulin²˒⁵, Dmitry V. Dylov³, Fakhri Karray⁴, Vladislav Kurenkov⁵˒⁶, Martin Takáč⁴, Arip Asadulaev⁴
¹NUST MISIS
²MSU
³计算成像实验室
⁴MBZUAI
⁵dunnolab
⁶Innopolis 大学
###### 摘要
离线目标条件强化学习需要同时具备长视距可达性估计和局部动作比较能力。对偶目标表征提供了能够捕获全局目标可达性的值场,但它们并未直接指定在给定状态下应优先选择哪个动作。我们提出了**对偶优势场**(Dual Advantage Fields, DAF),一种将双线性对偶价值模型转化为局部优势信号的策略提取方法。在双线性对偶参数化下,目标嵌入是关于状态表示的值场的梯度。DAF学习一个动作效果模型,该模型预测动作所引起的折扣特征位移,并通过该位移与目标方向的对齐程度来对动作进行评分。在可实现情况下,该评分等于目标条件下的贝尔曼优势,从而提供了标准的局部策略改进保证。在OGBench的移动、操作和拼图任务中,DAF改善了聚合的RLiable指标,并且在局部正确动作与朝向最终目标的直接移动不同的设置中表现强劲。
参见图1说明:一个对偶目标条件价值模型在状态表示上定义了一个全局值面。DAF通过预测每个动作如何移动状态表示,并测量该移动是否与目标方向对齐,将此全局面转换为局部动作比较信号。
## 1 引言
目标条件强化学习(GCRL)旨在从固定的先前经验数据集中学习能够到达任意目标的策略。这需要同时解决两个不同的问题。首先,智能体必须进行全局推理:它必须推断状态如何在长视距上连接,以便在一个数据集中观察到的行为可以与在别处观察到的行为拼接起来。其次,智能体必须局部行动:在当前状态下,它必须决定哪个可用动作能向请求的目标取得最大进展。因此,一个好的目标条件智能体既需要一张全局的可达性地图,又需要一个用于动作选择的局部指南针。
最近的对偶目标表征为第一个问题提供了有力的答案。它们将目标条件价值函数参数化为状态嵌入和目标嵌入之间的双线性交互:\( V_\theta(s,g) = \psi_\theta(s)^\top \phi_\theta(g) \)。这种结构为每个目标诱导出一个值面,其中对于该目标而言更可达或更理想的状态获得更高的值。这种值面非常适合长视距推理:它们编码了时间结构,支持离线轨迹之间的拼接,并能在状态-目标对之间泛化。
然而,仅凭值面并不能直接回答局部控制问题。它说明了当前状态对于某个目标有多好,但并未说明在该状态下可用的动作中应优先选择哪一个。这种区别在离线GCRL中至关重要。策略提取需要一个动作比较信号。两个动作可以从同一状态出发,因此共享相同的值 \( V_\theta(s,g) \),但可能只有一个动作能使智能体靠近目标。所缺少的不是另一个全局可达性估计,而是一个局部的类似优势的量:一种评分动作是否在改变状态的方向上改善了目标条件价值的方法。
我们的关键观察是,这个局部信号已经隐含在对偶表示的几何结构中。在上述双线性参数化下,目标嵌入 \( \phi_\theta(g) \) 是在状态表示空间中目标条件价值增加的方向:\(\nabla_\psi V_\theta(s,g) = \phi_\theta(g) \)。因此,如果一个动作在状态表示中引起位移,其对目标的效用可以通过一个简单的几何测试来评估:预测的位移是否与目标方向对齐?这将目标条件策略改进转化为对偶表示空间中的局部对齐问题。我们引入了**对偶优势场**(DAF),一种使该几何结构显式化的策略提取方法;见图1。DAF学习一个动作效果模型,该模型预测动作引起的状态表示的折扣变化。然后,它通过该预测的动作效果与目标嵌入之间的内积来评分动作。得到的评分是局部的、目标条件的、动作比较性的:它倾向于其预测的潜在效果指向目标价值增加方向的动作。
这种观点引出了离线GCRL的一个简单原则:*全局值场应与局部优势场配对*。对偶表示提供了全局地图;DAF从相同的表示空间中提取策略改进所需的局部指南针。这产生了一种高效的无actor策略提取机制:DAF不学习单独的目标条件动作价值函数,而是重用对偶评论家的几何结构来获得类似优势的评分,用于加权离线动作。
我们的贡献如下:
- •我们证明,在标准的对偶目标表示参数化下,目标嵌入可以解释为目标条件值场关于学习到的状态表示的梯度方向。
- •我们引入了**对偶优势场**,它学习动作效果向量,并通过它们与目标方向的对齐程度来评分动作,为目标条件策略提取产生一个局部优势样信号。
- •我们使用这个信号从离线数据中提取策略,而无需训练单独的目标条件动作价值函数,并在具有挑战性的离线GCRL基准测试中评估了该方法。
## 2 预备知识
##### 目标条件强化学习。
我们研究*离线*目标条件强化学习(GCRL)[14, 5, 15, 17]:学习者可以访问固定的离线转换数据集,但不能在环境中收集新的经验[19]。目标是推断最优的目标条件策略,即使对于训练中未见过的状态-目标对组合也是如此。
令 \(\mathcal{S}\) 和 \(\mathcal{A}\) 分别表示状态空间和动作空间,并令 \(\mathcal{G} \subseteq \mathcal{S}\)(或一个抽象的目标空间)表示目标。每一步,环境根据未知的马尔可夫核 \(P(s' \mid s,a)\) 产生一个转换 \((s,a,s')\)。一个目标 \(g \in \mathcal{G}\) 诱导出一个奖励信号 \(r(s,a,g)\):在稀疏目标到达问题中,这通常为零,直到达到成功条件。一个随机策略 \(\pi(a \mid s,g)\) 诱导出通常的折扣回报,折扣因子为 \(\gamma \in (0,1)\)。目标条件值函数和动作值函数为:
\[
Q^\pi(s,a,g) := \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t \, r(s_t,a_t,g) \,\middle|\, s_0=s,\, a_0=a \right], \quad V^\pi(s,g) := \mathbb{E}_{a\sim\pi(\cdot\mid s,g)} \big[ Q^\pi(s,a,g) \big].
\]
\[
Q^\pi(s,a,g) = \mathbb{E}_{s'\sim P(\cdot\mid s,a)} \big[ r(s,a,g) + \gamma \, V^\pi(s',g) \big], \quad V^\pi(s,g) = \mathbb{E}_{a\sim\pi(\cdot\mid s,g)} \big[ Q^\pi(s,a,g) \big]. \quad (1)
\]
最近的GCRL方法结合了多种思想,包括表示学习、拟度量目标[25, 11, 17]以及关于值函数、Q函数和Actor的分层视野缩减[21, 7, 18]。这些设计选择往往是互补的,但现有方法仍然显示出领域特定的优势:分层方法在长视距移动任务中表现出色,而拟度量表示通常在操作任务中表现良好。相比之下,DAF在训练期间强调局部策略改进,同时保留长视距推理能力,从而在两个领域都取得更一致的性能。
**分层隐式Q学习(HIQL)**。
在GCRL中,准确估计远处目标的值函数是解决复杂长视距任务的主要挑战[21]。为了解决这个问题,HIQL[21]提出了一种分层策略结构,该结构利用通过IQL[13]学习的值函数。这种分层设计使得智能体即使在远处目标的值估计存在噪声或不可靠时也能产生有效的动作。更具体地说,HIQL使用以下损失训练一个目标条件状态值函数 \(V\):
\[
\mathcal{L}(V) = \mathbb{E}_{(s,s')\sim\mathcal{D},\; g\sim p(g)} \left[ L_2^\tau \left( r(s,g) + \gamma \bar{V}(s',g) - V(s,g) \right) \right], \quad (2)
\]
其中期望损失定义为 \(L_2^\tau(u) = |\tau - \mathbf{1}(u<0)| u^2\),\(\tau > 0.5\),且 \(\bar{V}\) 表示目标 \(V\) 网络。¹¹由于IQL固有的过高估计问题,我们假设环境动态是确定性的。
遵循先前工作[3, 25, 21],我们采用稀疏奖励 \(r(s,g) = -\mathbf{1}\{s \neq g\}\)。在此奖励下,最优值 \(|V^\star(s,g)|\) 对应于*折扣时间距离*,即从状态 \(s\) 到达目标 \(g\) 所需的最小环境步数的折扣度量。HIQL将策略提取²²策略提取是指从学习到的值函数中学习策略,强调值学习和策略学习之间的分离。分为两个层次:一个高层策略 \(\pi^h(s_{t+k} \mid s_t, g)\) 生成一个 \(k\) 步子目标,引导向目标前进;而一个低层策略 \(\pi^\ell(a_t \mid s_t, s_{t+k})\) 产生原始动作以到达子目标。两个策略都使用优势加权回归(AWR)[23, 26] 以及以下目标进行提取:
\[
\mathcal{J}(\pi^h) = \mathbb{E}_{(s_t, s_{t+k}, g) \sim \mathcal{D}} \left[ \exp\left( \beta^h \cdot A^h(s_t, s_{t+k}, g) \right) \log \pi^h(s_{t+k} \mid s_t, g) \right], \quad (3)
\]
\[
\mathcal{J}(\pi^\ell) = \mathbb{E}_{(s_t, a_t, s_{t+1}, s_{t+k}) \sim \mathcal{D}} \left[ \exp\left( \beta^\ell \cdot A^\ell(s_t, s_{t+1}, s_{t+k}) \right) \log \pi^\ell(a_t \mid s_t, s_{t+k}) \right], \quad (4)
\]
其中 \(\beta^h\) 和 \(\beta^\ell\) 是逆温度参数,\(A^h(s_t, s_{t+k}, g) = V^h(s_{t+k}, g) - V^h(s_t, g)\) 表示高层策略优势,而 \(A^\ell(s_t, s_{t+1}, s_{t+k}) = V^\ell(s_{t+1}, s_{t+k}) - V^\ell(s_t, s_{t+k})\) 表示低层策略优势。HIQL使用一个单一的目标条件值函数 \(V\),该函数在 \(\pi^h\) 和 \(\pi^\ell\) 之间共享(即 \(V^h = V^\ell = V\))。然而,尽管有这种设计,HIQL仍然难以处理长视距、复杂的任务,如GCRL基准测试OGBench[19]所示。
**对偶目标表征**[22]。
在目标条件强化学习中,目标表征决定了策略和值函数使用关于目标状态的哪些信息。对偶目标表征不是直接以原始目标观察为条件(这可能包含无关或外部因素),而是通过其与其他状态的可达性关系来编码一个目标。一个目标 \(g\) 由 \(\phi^\vee(g): s \mapsto d^\star(s,g)\) 表示,其中 \(d^\star(s,g)\) 表示从状态 \(s\) 到目标 \(g\) 的最优时间距离。在实践中,我们通过一个双线性目标条件势[9] 来近似这个泛函:
\[
V_\theta(s,g) = \psi_\theta(s)^\top \phi_\theta(g), \quad (5)
\]
其中 \(\psi_\theta: \mathcal{S} \to \mathbb{R}^d\) 和 \(\phi_\theta: \mathcal{G} \to \mathbb{R}^d\) 是状态和目标嵌入。目标嵌入 \(\phi_\theta(g)\) 然后作为一个有限维的对偶表示:当与 \(\psi_\theta(s)\) 配对时,它预测一个反映环境可达性结构的值或类似距离的量。
## 3 对偶优势场
参见图2说明:对偶优势场。在双线性目标条件价值模型下,目标嵌入定义了表示空间中的一个方向。DAF通过将其引起的特征位移投影到该目标方向上来对动作进行评分,为策略改进产生一个局部优势样信号。
我们的方法基于等式(5)中双线性价值分解的一个简单见解。固定目标并将价值视为状态嵌入 \(\psi\) 的函数,我们有:
###### 命题3.1。在双线性目标条件价值模型 \(V_\theta(s,g) = \psi_\theta(s)^\top \phi_\theta(g)\) 下,价值相对于状态嵌入的梯度就是目标嵌入:
\[
\nabla_\psi V_\theta(s,g) = \nabla_\psi (\psi^\top \phi_\theta(g)) = \phi_\theta(g). \quad (6)
\]
因此,目标嵌入 \(\phi_\theta(g)\) 是在学习到的嵌入的欧几里得几何下表示空间中的值梯度方向。请参见图2以获得直观理解。对于从 \(s\) 到 \(s'\) 的任何转换,双线性价值的变化正好是 \(V_\theta(s',g)相似文章
DVAO:多奖励强化学习中的动态方差自适应优势优化
DVAO 根据奖励方差自适应地加权目标,以提升多奖励强化学习的训练稳定性和多目标性能。
DPO与RLHF的条件等价性:隐含假设、失败模式与可证明的对齐
本文证明了直接偏好优化(DPO)与基于人类反馈的强化学习(RLHF)之间的等价性是有条件的,并且在实践中经常被违反,揭示了DPO优化相对优势而非绝对对齐的失败模式。作者引入了约束偏好优化(CPO)以实现可证明的对齐,并展示了最先进的性能。
DAR:基于智能体框架的道义推理
本文介绍了DAR(Deontic Agentic Reasoning),一个智能体框架,使LLM能够交互式地查询法律法规和政策,用于法律/监管推理任务。在DeonticBench上评估的结果表明,智能体引导可以提升前沿模型,但可能会导致较弱模型在数值任务上表现下降,同时消耗更多令牌。
公平强化学习
公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。
DOG-DPO:面向安全对齐的几何动态优化
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。