Return-to-Go 不仅仅是数字：用于返回条件监督学习的 Q 引导对齐

arXiv cs.LG 2026/05/29 04:00 论文

摘要

本文提出了 Q-align DT 框架，该框架将 return-to-go 与 Q 值对齐，以提高离线强化学习中的可控性和性能，在 D4RL 基准上取得了优异的结果。

arXiv:2605.29028v1 公告类型: 新的摘要：条件序列模型（CSMs）通过将 return-to-go（RTG）视为控制信号来学习策略。然而，现有的 CSMs 通常将 RTG 视为简单的数值输入，而不是将其与策略的性能对齐。在本文中，我们提出了 Q-ALIGN DT，一个强制实现这种对齐的框架，它确保输出策略的 $Q$ 值与输入 RTG 一致。通过利用 $Q$ 函数为 CSMs 提供密集的指导，并进一步使用 RTG 扰动技术与 CSM 一起对其进行微调，我们的方法确保较高的 RTG 始终映射到具有较高期望回报的轨迹。理论上，我们证明当 RTG 足够高时，Q-ALIGN DT 可以有效学习期望策略并输出接近最优的策略。实证上，我们通过大量实验表明，Q-ALIGN DT 在 D4RL 基准上实现了优越的可控性和性能。值得注意的是，我们的模型有效学习了一个结构化的策略族，该策略族保持精确对齐，并泛化到先前方法失败的诸如速度追踪等任务。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:15

# 返回-到-实现目标不仅是一个数字：Q引导的对齐方法用于基于返回条件的监督学习  
来源：https://arxiv.org/html/2605.29028  

###### 摘要  

条件序列模型（CSMs）通过将返回-到-实现目标（RTG）作为控制信号来学习策略。然而，现有的CSMs通常将RTG视为简单的数值输入，而不是使其与策略的性能对齐。在本文中，我们提出Q-align DT，这是一个通过对齐确保输出策略的Q值与输入RTG一致的框架。通过利用Q函数为CSMs提供密集引导，并进一步使用RTG扰动技术与CSM联合微调，我们的方法确保较高的RTG始终映射到具有较高期望回报的轨迹。理论上，我们证明Q-align DT能有效学习所需策略，并且在RTG足够高时输出接近最优的策略。实证上，我们通过大量实验证明Q-align DT在D4RL基准测试中实现了优越的可控性和性能。值得注意的是，我们的模型有效学习了保持精确对齐的结构化策略族，并能推广到先验方法失败的如速度跟踪等任务。  

机器学习，ICML  

## 1 引言  

离线强化学习（Offline RL）旨在从预先收集的数据集中学习一个有效且鲁棒的策略，而无需与环境交互（Fujimoto等，2019）。近年来，Transformer架构（Vaswani等，2017）在自然语言处理（Devlin等，2019；Brown等，2020；Liu等，2019）和计算机视觉（Dosovitskiy等，2021a；He等，2021；Dosovitskiy等，2021b；Liu等，2021）中取得了显著成功，因其强大的序列建模能力也被引入强化学习（Laskin等，2023；Lee等，2023；Grigsby等，2024）。在这些进展中，条件序列模型（CSMs）（Chen等，2021；Janner等，2021）提供了新视角，将策略学习视为以期望性能为条件的监督序列建模问题。具体来说，决策变换器（Decision Transformer, DT）引入了返回-到-实现目标（RTG）令牌，使模型能生成实现期望回报的轨迹，而非模仿行为策略。然而，CSM实际获得的回报与目标输入RTG的对齐程度是一个基础但常被忽视的性质。精确的对齐使单个模型能够表示多样策略族，并对具有不同速度的可控机器人行为至关重要（Tanaka等，2025）。因此，我们想问：*CSM能实际与目标RTG对齐到什么程度？*  

不幸的是，最近的研究（Kim等，2024b；Tanaka等，2025）报告现有CSMs通常对RTG表现出显著不敏感，无法实现适当对齐。如图1所示，我们假设这种失败源于缺乏结构意识：一个稳健的CSM应捕获不同RTG目标与其对应行为之间的结构，而非仅仅将RTG视为简单令牌。具体来说，较高的RTG应始终对应于具有较高期望累积回报的轨迹，确保目标RTG与实际性能之间的*偏序关系*。在离线RL中，强制这种偏序关系具有挑战性，因为在固定数据集中构造遵循偏序的充足轨迹可能是不可行的。为了解决这一挑战，在本文中，我们提出Q-align DT，引入辅助Q函数提供密集引导。通过新颖的*RTG-to-behavior*目标以及*RTG扰动*技术，我们的方法鼓励模型输出精确反映所需RTG相对差异的动作。我们将这种RTG扰动进一步集成到联合训练中的Q函数更新中，确保评论家和策略共同演化，朝向一致、对奖励敏感的行为。基于我们的算法，我们提供了CSM对齐性质的理论分析，并进行了广泛实验以评估我们训练的模型。我们发现Q-align DT学习了一个RTG条件策略族，能主动响应目标变化，而非仅依赖于训练数据中的静态奖励关联。此外，我们证明了我们的模型可适应不同任务（例如HalfCheetah-Vel），同时保持竞争性性能和对齐，表明其跨多样行为泛化的潜力。总体而言，我们的贡献有三个方面：  

- • 我们提出Q-align DT，引入新的RTG-to-behavior对齐目标，强制输入RTG与策略行为之间的一致性，显著提高了RTG条件对齐。它进一步采用带RTG扰动的联合训练框架，为Q函数学习提供高质量动作空间，实现双向改进。  
- • 理论上，我们证明Q-align DT通过限制策略类别提高了对齐，并且对齐目标保证在高RTG条件下等价于最大化Q函数。结合RTG扰动，在温和假设下导致收敛到接近最优的分布内策略。  
- • 大量实验表明，Q-align DT在广泛的离线RL任务中一致实现竞争性性能，同时显著提高RTG条件对齐。值得注意的是且有些令人惊讶，我们报告Q-align DT有效推广到具有挑战性的HalfCheetah-Vel任务，仅通过控制RTG信号进行零样本迁移就取得了竞争性性能。  

代码。我们的代码可在https://github.com/yangyuxiao-sjtu/Q-Align-DT获取。  

图注(a) hopper-medium  
图注(b) halfcheetah-medium  
图注(c) walker2d-medium  

图1：Q-align DT（Q_align）与其他基线模型在D4RL任务上的性能。目标RTG以100为间隔设置，针对累积奖励。我们对每个目标RTG采样30条轨迹，并报告每种方法的平均性能。  

## 2 相关工作  

### 2.1 离线强化学习  

强化学习旨在通过与环境直接交互来训练智能体解决任务，但在机器人学、医疗保健等领域，这种交互往往昂贵或不切实际。为解决这一限制，离线强化学习从行为策略收集的固定数据集中学习策略（Levine等，2020；Siegel等，2020；Jaques等，2019；Agarwal等，2020；Ernst等，2005）。尽管前景广阔，但将在线RL算法简单应用于离线设置常因分布外动作和外推误差导致严重性能下降（Fujimoto等，2019；Kumar等，2019；Levine等，2020）。现有工作通过一系列技术缓解这些问题，包括Q值正则化（Wu等，2019；Kumar等，2020；Wang等，2020）和基于行为克隆的目标（Fujimoto和Gu，2021）。最近，离线RL的固定数据集性质推动了基于Transformer架构的采用（Chen等，2021；Wu等，2023；Chebotar等，2023），使得在轨迹上进行高效、完全并行化的监督训练成为可能。  

### 2.2 条件序列模型  

条件序列模型（CSMs）（Chen等，2021；Janner等，2021）将强化学习置于监督学习范式下，通过从历史状态-动作对$(s_i, a_i)$和返回-到-实现目标令牌$\text{rtg}_i$预测动作。具体来说，RTG在训练时从数据集导出为累积奖励，并在推理时作为用户指定的条件。尽管最近的理论结果表明CSMs在理想假设下能恢复目标回报（Brandfonbrener等，2022；Lin等，2024；Furuta等，2022），但实证研究（Kim等，2024b；Tanaka等，2025）显示CSMs通常未充分利用RTG携带的信息，导致目标行为与期望RTG之间对齐不佳。为应对此问题，RADT（Tanaka等，2025）通过架构修改增强RTG敏感性，但代价是显著的计算和参数开销——在每个Transformer块中引入额外注意力层。  

### 2.3 条件序列模型中的Q学习  

Q函数被广泛用于改进CSMs。早期方法如QDT（Yamagata等，2023）和CGDT（Wang等，2024）利用预训练的Q函数进行RTG重标注和数据集偏差缓解，而后续方法如QT（Hu等，2024）、QCS（Kim等，2024a）和TD3-ODT（Yan等，2024）通过预测的动作反向传播Q值梯度。虽然Q梯度方法实现了竞争性的峰值性能，但它们往往将策略推向最大价值动作，而不考虑目标RTG，导致对齐退化，因为策略坍缩到数据分布内相对高回报的区域（图1）。此外，尽管现有方法利用Q函数改进CSMs，但很少关注CSMs如何通过其对齐能力反过来有益于Q函数训练。  

### 2.4 多任务和元强化学习  

元强化学习（Meta-RL）（Beck等，2025）旨在使智能体快速适应具有相似底层结构的新任务（Finn等，2017；Duan等，2016）。一个更具挑战性的设置——离线元强化学习，考虑智能体必须从固定数据集中学习，并期望泛化到未见过的测试任务（Mitchell等，2021；Dorfman等，2021）。由于Transformer架构的上下文学习能力，近期工作越来越多地将Transformer用于此类任务（Xu等，2022；Lee等，2023）。  

## 3 预备知识  

我们考虑一个由元组$(\mathcal{S}, \mathcal{A}, P, R, \gamma)$定义的马尔可夫决策过程（MDP），其中$\mathcal{S}$和$\mathcal{A}$表示状态和动作空间，$P(s_{t+1}|s_t, a_t)$表示转移概率，$R(s, a)$是奖励函数，$\gamma \in (0,1]$是折扣因子。遵循决策变换器框架（Chen等，2021），我们将输入表示为返回-到-实现目标、状态和动作令牌的序列：  
$$\boldsymbol{\tau}=(\text{rtg}_0, s_0, a_0, \ldots, \text{rtg}_H, s_H, a_H),$$  
其中$\text{rtg}_t = \sum_{i=t}^H r_i$表示时刻$t$的未来累积奖励。此RTG信号作为目标返回以条件策略。为确保计算效率，我们采用$k$步上下文窗口，其中时刻$t$的截断序列定义为：  
$$\boldsymbol{\tau}_t=(\text{rtg}_{t-k+1}, s_{t-k+1}, a_{t-k+1}, \ldots, \text{rtg}_t, s_t, a_t).$$  
RTG令牌是条件模型行为的主要机制。理想情况下，基于DT的模型应表示一个由目标RTG索引的策略族（Brandfonbrener等，2022），表示为：  
$$\Pi_{\mathrm{DT}}=\{\pi_z \mid z \in \mathbb{R}_+\}, \tag{1}$$  
在实践中，RTG令牌通常在推理时被控制以告知期望行为。为反映这一点，我们为任意标量$g \in \mathbb{R}$定义一个*修改的RTG序列*$\boldsymbol{\tau}_t^g$，将上下文窗口中所有RTG令牌偏移$g$：  
$$\boldsymbol{\tau}_t^g=(\text{rtg}_{t-k+1}+g, s_{t-k+1}, a_{t-k+1}, \ldots, \text{rtg}_t+g, s_t, a_t). \tag{2}$$  

## 4 方法  

动机。为研究目标RTG的可解释性，我们对决策变换器（Chen等，2021；Hu等，2024；Tanaka等，2025；Kim等，2024b）的几种变体进行了基准测试，并分析了它们在不同RTG条件下的行为。如图1所示，我们一致观察到目标RTG与实际滚出性能之间存在显著差距。这种错位在HalfCheetah环境中尤为明显，模型对请求RTG的变化几乎不敏感。这些发现表明，RTG条件在模型的决策过程中仍然边缘化，直接促使我们开发Q-align DT以显式强制RTG-行为对齐。  

### 4.1 使用RTG-to-Behavior对齐训练模型  

从上述讨论出发，我们的目标是训练一个CSM变体，使其内化目标RTG与实际性能之间的*偏序关系*。

Return-to-Go 不仅仅是数字：用于返回条件监督学习的 Q 引导对齐

相似文章

信任区域Q伴随匹配

Reversal Q-Learning

用于样本高效连续控制的无偏模型化表示

GoLongRL：面向能力的长上下文强化学习与多任务对齐

Drift Q-Learning

提交意见反馈