UNIQ:面向离线强化学习的共形校准自适应保守性方法

arXiv cs.LG 论文

摘要

UNIQ引入了一种用于离线强化学习的共形校准方法,该方法基于不确定性对每个状态自适应调整保守性,在部分D4RL基准测试上优于IQL,同时保持内存效率。

arXiv:2606.07592v1 公告类型:新论文 摘要:离线强化学习需要谨慎的保守性来缓解分布偏移,然而现有方法大多对所有状态施加统一的惩罚,而不考虑局部数据覆盖情况。我们提出UNIQ(不确定性知情分位数),一种通过共形校准不确定性估计引入状态自适应保守性的离线RL方法。基于隐式Q学习(IQL)骨干网络,UNIQ训练多期望值集成,使用分割共形预测计算无分布不确定性估计,并将所得信号映射到状态相关的期望值,从而在数据覆盖良好的区域放松保守性,在靠近数据边界的未知区域加强保守性。在D4RL MuJoCo基准测试上,UNIQ持续优于IQL,特别是在Walker2d和重放密集型任务上增益最大。同时,UNIQ的内存成本接近IQL(峰值VRAM约250 MB),相比EDAC减少约10倍。我们不追求全面最先进的性能,而是将UNIQ定位为一种实用的机制贡献,改进了离线强化学习中的性能-效率权衡。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:47

# UNIQ: 面向离线强化学习中自适应保守性的共形校准方法  
来源:https://arxiv.org/html/2606.07592 \\workshoptitle ICML 2026 Workshop Demo  

###### 摘要  

离线强化学习需要谨慎的保守性来应对分布偏移,然而大多数方法对所有状态施加统一的固定惩罚,无论该状态在数据中的覆盖程度如何。我们提出 **UNIQ**(Uncertainty-Informed Quantile,不确定性知情分位数),一种离线强化学习方法,通过共形校准的不确定性,按状态自适应调整保守性。基于 IQL 的隐式 Q 学习骨干,UNIQ 训练一个多分位数价值集成,利用分裂共形预测计算分布自由的不确定性边界,并将该信号映射为状态自适应分位数 τ(s),在覆盖良好的区域放松保守性,在数据边界处加强保守性。在 D4RL MuJoCo 基准测试中,UNIQ 在 Walker2d 任务和重放密集型设定上优于 IQL,同时保持接近 IQL 的内存开销(≈250 MB 峰值显存)——比 EDAC 降低 10 倍。我们明确报告了性能不佳的情况,并将 UNIQ 定位为性能-效率边界上的实用机制贡献,而非声称整体最优。  

## 1 引言  

从固定离线数据集中进行强化学习——离线强化学习——已成为现实世界序贯决策的一种实用范式,因为在线数据收集成本高昂、存在风险或受伦理约束(Levine 等,2020 (https://arxiv.org/html/2606.07592#bib.bib1);Prudencio 等,2023 (https://arxiv.org/html/2606.07592#bib.bib2))。其核心技术挑战是*分布偏移*:学得的策略可能在数据集中罕见或缺失的状态-动作区域查询动作价值,而标准时序差分(TD)方法会在这些区域进行极端外推,导致灾难性的过高估计和策略崩溃(Fujimoto 等,2019 (https://arxiv.org/html/2606.07592#bib.bib3);Kumar 等,2020 (https://arxiv.org/html/2606.07592#bib.bib4))。  

##### 分布偏移问题。  

在在线强化学习中,智能体可以通过收集新经验来纠正错误。离线强化学习移除了这一安全阀。考虑 TD 更新 Q(s,a) ← r + γ max_{a′} Q(s′,a′):当 a′ 为分布外(OOD)时,自举目标可能任意大,并随更新不断加剧。现有文献通过三类方法应对该问题。*行为克隆约束* 显式地将学得策略约束在数据分布附近(Fujimoto 等,2019 (https://arxiv.org/html/2606.07592#bib.bib3);Wu 等,2019 (https://arxiv.org/html/2606.07592#bib.bib6))。*保守价值学习* 直接惩罚 OOD 值,无论是显式(CQL;Kumar 等,2020 (https://arxiv.org/html/2606.07592#bib.bib4))还是隐式地通过分位数回归(IQL;Kostrikov 等,2022 (https://arxiv.org/html/2606.07592#bib.bib5))。*基于集成的* 不确定性利用多个评论家之间的差异作为 OOD 代理,并惩罚高差异动作(An 等,2021 (https://arxiv.org/html/2606.07592#bib.bib7);Tarasov 等,2023a (https://arxiv.org/html/2606.07592#bib.bib8))。  

##### IQL 及其局限性。  

IQL(Kostrikov 等,2022 (https://arxiv.org/html/2606.07592#bib.bib5))通过将价值学习视为具有固定分位数 τ∈(0,1) 的非对称回归,避免了显式的 OOD 查询。在 τ=0.9 时,价值函数学习经验回报的第 90 分位数,自然地抑制了 OOD 过高估计,而无需在训练期间查询分布外动作。IQL 计算量轻且异常稳定,是强大的实际基线。然而,*单一 τ 被均匀应用于所有状态*,无论数据集对该区域的覆盖是密集还是稀疏。在密集覆盖的状态中,IQL 的固定保守性留下了性能空间;在稀疏覆盖的状态中,它仍可能导致过高估计。  

##### 我们的提案:UNIQ。  

我们提出 UNIQ,它将 IQL 的固定分位数替换为*状态自适应* τ(s),由共形校准的不确定性驱动。核心思想很简单:如果我们能够可靠地估计价值函数在给定状态下的不确定性——以分布自由的方式校准——我们就可以在数据覆盖差的区域精确加强保守性,在覆盖丰富的区域放松保守性。这产生了一种比 IQL 更具表达力的机制,同时增加了极小的计算成本。UNIQ*不*声称在总体得分上超越 EDAC(An 等,2021 (https://arxiv.org/html/2606.07592#bib.bib7))或 ReBRAC(Tarasov 等,2023a (https://arxiv.org/html/2606.07592#bib.bib8));这些方法使用了更重的评论家集成和正则化方案。相反,UNIQ 占据了性能-效率边界上的不同位置:接近 IQL 的计算量,在重放密集型任务和 Walker2d 任务上具有针对性的改进,以及一种可迁移到其他骨干的不确定性引导保守性机制。  

## 2 相关工作  

##### 保守离线强化学习。  

CQL(Kumar 等,2020 (https://arxiv.org/html/2606.07592#bib.bib4))添加了一个显式正则化器,最小化 OOD 动作的 Q 值,同时最大化分布内动作的 Q 值。IQL(Kostrikov 等,2022 (https://arxiv.org/html/2606.07592#bib.bib5))通过隐式分位数回归完全避免了 OOD 自举,而 TD3+BC(Fujimoto 和 Gu,2021 (https://arxiv.org/html/2606.07592#bib.bib9))应用了简单的 BC 惩罚。这些方法使用固定的全局保守性系数。  

##### 基于集成的悲观主义。  

SAC-N(An 等,2021 (https://arxiv.org/html/2606.07592#bib.bib7))和 EDAC(An 等,2021 (https://arxiv.org/html/2606.07592#bib.bib7))训练大型评论家集成(通常 N=10–50),并使用 Q 值的最小值或均值减标准差作为悲观目标。ReBRAC(Tarasov 等,2023a (https://arxiv.org/html/2606.07592#bib.bib8))重新审视了这些设计,并添加了额外的正则化和仔细的调参,在 D4RL 上取得了强劲结果。这些方法的计算成本随集成大小线性增长。我们明确与这些方法进行比较,并承认性能差距。  

##### 用于强化学习的共形预测。  

共形预测(Vovk 等,2005 (https://arxiv.org/html/2606.07592#bib.bib10);Lei 等,2018 (https://arxiv.org/html/2606.07592#bib.bib11))提供了有限样本、分布自由的预测区间,无需分布假设。Romano 等(2019 (https://arxiv.org/html/2606.07592#bib.bib12))将其扩展到分位数回归。其在强化学习不确定性量化中的应用探索不足;UNIQ 是首批使用分裂共形校准(Papadopoulos 等,2002 (https://arxiv.org/html/2606.07592#bib.bib13))将不确定性估计扩展到价值函数保守性的方法之一。相关并发工作(Bai 等,2022 (https://arxiv.org/html/2606.07592#bib.bib24);Park 和 Sung,2023 (https://arxiv.org/html/2606.07592#bib.bib33))探索了共形和基于不确定性的离线强化学习途径,我们在附录 A (https://arxiv.org/html/2606.07592#A1) 中区分了我们的方法。  

##### 自适应保守性。  

先前的工作通过密度模型(Yu 等,2021 (https://arxiv.org/html/2606.07592#bib.bib14))或支持约束探索了状态依赖的惩罚,但这些通常需要辅助生成模型。UNIQ 则直接从集成不确定性推导出状态依赖的保守性,并经过校准而无需密度估计。  

## 3 方法  

UNIQ 扩展了 IQL,包含三个组件:(1) 用于提取不确定性的多分位数价值集成,(2) 用于归一化不确定性的分裂共形校准,(3) 状态自适应分位数控制器。我们逐一描述。  

### 3.1 IQL 骨干  

IQL 学习价值函数 V_φ(s) 和 Q 函数 Q_θ(s,a),无需查询 OOD 动作。价值损失在分位数 τ 处使用非对称 L2 回归:  

L_V(φ) = E_{(s,a)∼D}[ |τ - 1(Q_θ(s,a) - V_φ(s) < 0)| (Q_θ(s,a) - V_φ(s))^2 ]. (1)  

策略通过优势加权回归提取:π ∝ exp(β(Q - V))。UNIQ 将等式 (1) 中的固定 τ 替换为学得的、状态依赖的 τ(s)(用于主价值网络),而 Q 函数目标使用悲观集成均值(等式 (7))。  

### 3.2 多分位数价值集成  

我们训练 N_v 个集成成员 {V_{φ_k}}_{k=1}^{N_v},在三个固定分位数水平 τ̄ ∈ {0.5, 0.7, 0.9} 上,共计 3N_v 个价值头。这种多分辨率拟合揭示两种互补的不确定性信号:  

σ_ens(s) = Std_k[ V_{φ_k}^{(0.7)}(s) ], (2)  
Δ_τ(s) = V̄^{(0.9)}(s) - V̄^{(0.5)}(s), (3)  

其中上划线表示集成均值。σ_ens(s) 捕获认识论分歧(集成不确定性)。Δ_τ(s) 捕获偶然性分布宽度(回报分布宽度),并用作诊断信号;推导和分析见附录 B (https://arxiv.org/html/2606.07592#A2)。τ∈{0.5, 0.9} 的头因而被训练来支持此诊断,并为共形校准步骤提供多分辨率 Bellman 残差。  

### 3.3 分裂共形校准  

原始的集成差异 σ_ens(s) 依赖于任务和尺度;值 0.5 可能在某个领域表示高不确定性,而在另一个领域表示低不确定性。我们使用*分裂共形预测*(Papadopoulos 等,2002 (https://arxiv.org/html/2606.07592#bib.bib13))将 σ_ens(s) 转换为校准后的、分布自由的不确定性分数。我们保留一个校准集 D_cal ⊂ D(与训练集不相交)。对于每个校准转移 (s_i, a_i, r_i, s_i′),我们计算非一致性分数:  

α_i = | r_i + γ V̄^{(0.7)}(s_i′) - V̄^{(0.7)}(s_i) |, (4)  

它衡量集成的 Bellman 残差与校准数据的拟合程度。然后我们计算 {α_i} 的 (1-δ) 分位数 q̂,得到一个数据驱动的阈值,以有限样本保证覆盖至少 1-δ 的校准转移(Vovk 等,2005 (https://arxiv.org/html/2606.07592#bib.bib10))。任意状态下的归一化不确定性为:  

u(s) = σ_ens(s) / (q̂ + ε), (5)  

其中 ε > 0 避免除以零。此归一化是全局重缩放,使 σ_ens 在不同任务间可比;q̂ 充当环境自适应尺度因子,而非逐状态的共形保证。当 u(s) > 1 时,集成差异超过校准的 Bellman 残差阈值——表明状态覆盖不佳。当 u(s) < 1 时,相对于校准分布,状态覆盖良好。  

### 3.4 状态自适应保守性  

我们通过 sigmoid 调度将归一化不确定性 u(s) 映射到自适应分位数:  

τ(s) = τ_min + (τ_max - τ_min) · σ_sig( -β_τ (u(s) - 1) ), (6)  

其中 σ_sig(·) 是逻辑 S 形函数。当 u(s) ≫ 1(高不确定性、OOD)时,τ(s) → τ_min——更保守。当 u(s) ≪ 1(覆盖良好)时,τ(s) → τ_max——更乐观。此外,我们应用全局悲观价值目标:  

V_pess(s) = V̄^{(0.7)}(s) - κ σ_ens(s), (7)  

它用于 Q 函数的 Bellman 目标。关键地,κ 是每任务离线选择的,使用留出数据集统计量;所有值见附录 C (https://arxiv.org/html/2606.07592#A3)。等式 (6) 和等式 (7) 共同构成了 UNIQ 的自适应保守性机制。  

### 3.5 完整训练过程  

算法 1 (https://arxiv.org/html/2606.07592#alg1) 总结了 UNIQ。共形分位数 q̂ 在校准集上定期重新计算,使阈值能够随价值集成训练而自适应。  

**算法 1** UNIQ 训练  

1: 将离线数据集 D 划分为训练集 D_train 和校准集 D_cal  
2: 初始化多分位数集成 {V_{φ_k}^{(τ̄)}}_{k=1, τ̄∈{0.5, 0.7, 0.9}}、主价值网络 V_φ、Q 网络 Q_θ、策略 π_ψ  
3: **for** 每个训练步 t **do**  
4: 从 D_train 中采样批次  
5: 在固定 τ̄∈{0.5, 0.7, 0.9} 下通过分位数损失更新集成成员 V_{φ_k}^{(τ̄)}  
6: 通过等式 (2) 计算 σ_ens(s)  
7: **if** t mod T_recal = 0 **then**  
8: 在 D_cal 上重新计算共形分位数 q̂  
9: **end if**  
10: 通过校准映射(等式 (6))计算 u(s) 和 τ(s)  
11: 使用自适应分位数损失(等式 (1))更新主 V_φ,采用 τ(s)  
12: 通过等式 (7) 计算 V_pess(s′);使用 V_pess 通过 Bellman 备份更新 Q_θ  
13: 使用 Q_θ - V_φ 通过优势加权回归更新 π_ψ  
14: **end for**  

## 4 实验  

### 4.1 设定  

我们在 D4RL MuJoCo 基准测试(Fu 等,2020 (https://arxiv.org/html/2606.07592#bib.bib15))上进行评估:三个运动环境(HalfCheetah、Hopper、Walker2d)和三种数据集类型(medium、medium-replay、medium-expert)共 9 个任务。这些数据集的覆盖质量差异显著。*Medium* 数据集包含次优 rollout;*medium-replay* 数据集包含训练至中等策略过程中的重放缓冲区数据,具有高行为多样性;*medium-expert* 数据集混合了专家和中等质量转移。BC、TD3+BC、CQL、IQL、EDAC、ReBRAC、SAC-N 和 DT(Chen 等,2021 (https://arxiv.org/html/2606.07592#bib.bib35))的基线分数取自已发表报告和 CORL 基准汇总(Tarasov 等,2023b (https://arxiv.org/html/2606.07592#bib.bib16))。所有 UNIQ 值是种子 0–2 的平均值。实验在 A100 20 GB MIG 实例上运行。可复现性

相似文章

用于样本高效连续控制的无偏模型化表示

Hugging Face Daily Papers

本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。

信任区域Q伴随匹配

Hugging Face Daily Papers

信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。