UNIQ：面向离线强化学习的共形校准自适应保守性方法

arXiv cs.LG 2026/06/09 04:00 论文

摘要

UNIQ引入了一种用于离线强化学习的共形校准方法，该方法基于不确定性对每个状态自适应调整保守性，在部分D4RL基准测试上优于IQL，同时保持内存效率。

arXiv:2606.07592v1 公告类型：新论文摘要：离线强化学习需要谨慎的保守性来缓解分布偏移，然而现有方法大多对所有状态施加统一的惩罚，而不考虑局部数据覆盖情况。我们提出UNIQ（不确定性知情分位数），一种通过共形校准不确定性估计引入状态自适应保守性的离线RL方法。基于隐式Q学习（IQL）骨干网络，UNIQ训练多期望值集成，使用分割共形预测计算无分布不确定性估计，并将所得信号映射到状态相关的期望值，从而在数据覆盖良好的区域放松保守性，在靠近数据边界的未知区域加强保守性。在D4RL MuJoCo基准测试上，UNIQ持续优于IQL，特别是在Walker2d和重放密集型任务上增益最大。同时，UNIQ的内存成本接近IQL（峰值VRAM约250 MB），相比EDAC减少约10倍。我们不追求全面最先进的性能，而是将UNIQ定位为一种实用的机制贡献，改进了离线强化学习中的性能-效率权衡。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:47

# UNIQ: 面向离线强化学习中自适应保守性的共形校准方法  
来源：https://arxiv.org/html/2606.07592 \\workshoptitle ICML 2026 Workshop Demo  

###### 摘要  

离线强化学习需要谨慎的保守性来应对分布偏移，然而大多数方法对所有状态施加统一的固定惩罚，无论该状态在数据中的覆盖程度如何。我们提出 **UNIQ**（Uncertainty-Informed Quantile，不确定性知情分位数），一种离线强化学习方法，通过共形校准的不确定性，按状态自适应调整保守性。基于 IQL 的隐式 Q 学习骨干，UNIQ 训练一个多分位数价值集成，利用分裂共形预测计算分布自由的不确定性边界，并将该信号映射为状态自适应分位数 τ(s)，在覆盖良好的区域放松保守性，在数据边界处加强保守性。在 D4RL MuJoCo 基准测试中，UNIQ 在 Walker2d 任务和重放密集型设定上优于 IQL，同时保持接近 IQL 的内存开销（≈250 MB 峰值显存）——比 EDAC 降低 10 倍。我们明确报告了性能不佳的情况，并将 UNIQ 定位为性能-效率边界上的实用机制贡献，而非声称整体最优。  

## 1 引言  

从固定离线数据集中进行强化学习——离线强化学习——已成为现实世界序贯决策的一种实用范式，因为在线数据收集成本高昂、存在风险或受伦理约束（Levine 等，2020 (https://arxiv.org/html/2606.07592#bib.bib1)；Prudencio 等，2023 (https://arxiv.org/html/2606.07592#bib.bib2)）。其核心技术挑战是*分布偏移*：学得的策略可能在数据集中罕见或缺失的状态-动作区域查询动作价值，而标准时序差分（TD）方法会在这些区域进行极端外推，导致灾难性的过高估计和策略崩溃（Fujimoto 等，2019 (https://arxiv.org/html/2606.07592#bib.bib3)；Kumar 等，2020 (https://arxiv.org/html/2606.07592#bib.bib4)）。  

##### 分布偏移问题。  

在在线强化学习中，智能体可以通过收集新经验来纠正错误。离线强化学习移除了这一安全阀。考虑 TD 更新 Q(s,a) ← r + γ max_{a′} Q(s′,a′)：当 a′ 为分布外（OOD）时，自举目标可能任意大，并随更新不断加剧。现有文献通过三类方法应对该问题。*行为克隆约束* 显式地将学得策略约束在数据分布附近（Fujimoto 等，2019 (https://arxiv.org/html/2606.07592#bib.bib3)；Wu 等，2019 (https://arxiv.org/html/2606.07592#bib.bib6)）。*保守价值学习* 直接惩罚 OOD 值，无论是显式（CQL；Kumar 等，2020 (https://arxiv.org/html/2606.07592#bib.bib4)）还是隐式地通过分位数回归（IQL；Kostrikov 等，2022 (https://arxiv.org/html/2606.07592#bib.bib5)）。*基于集成的* 不确定性利用多个评论家之间的差异作为 OOD 代理，并惩罚高差异动作（An 等，2021 (https://arxiv.org/html/2606.07592#bib.bib7)；Tarasov 等，2023a (https://arxiv.org/html/2606.07592#bib.bib8)）。  

##### IQL 及其局限性。  

IQL（Kostrikov 等，2022 (https://arxiv.org/html/2606.07592#bib.bib5)）通过将价值学习视为具有固定分位数 τ∈(0,1) 的非对称回归，避免了显式的 OOD 查询。在 τ=0.9 时，价值函数学习经验回报的第 90 分位数，自然地抑制了 OOD 过高估计，而无需在训练期间查询分布外动作。IQL 计算量轻且异常稳定，是强大的实际基线。然而，*单一 τ 被均匀应用于所有状态*，无论数据集对该区域的覆盖是密集还是稀疏。在密集覆盖的状态中，IQL 的固定保守性留下了性能空间；在稀疏覆盖的状态中，它仍可能导致过高估计。  

##### 我们的提案：UNIQ。  

我们提出 UNIQ，它将 IQL 的固定分位数替换为*状态自适应* τ(s)，由共形校准的不确定性驱动。核心思想很简单：如果我们能够可靠地估计价值函数在给定状态下的不确定性——以分布自由的方式校准——我们就可以在数据覆盖差的区域精确加强保守性，在覆盖丰富的区域放松保守性。这产生了一种比 IQL 更具表达力的机制，同时增加了极小的计算成本。UNIQ*不*声称在总体得分上超越 EDAC（An 等，2021 (https://arxiv.org/html/2606.07592#bib.bib7)）或 ReBRAC（Tarasov 等，2023a (https://arxiv.org/html/2606.07592#bib.bib8)）；这些方法使用了更重的评论家集成和正则化方案。相反，UNIQ 占据了性能-效率边界上的不同位置：接近 IQL 的计算量，在重放密集型任务和 Walker2d 任务上具有针对性的改进，以及一种可迁移到其他骨干的不确定性引导保守性机制。  

## 2 相关工作  

##### 保守离线强化学习。  

CQL（Kumar 等，2020 (https://arxiv.org/html/2606.07592#bib.bib4)）添加了一个显式正则化器，最小化 OOD 动作的 Q 值，同时最大化分布内动作的 Q 值。IQL（Kostrikov 等，2022 (https://arxiv.org/html/2606.07592#bib.bib5)）通过隐式分位数回归完全避免了 OOD 自举，而 TD3+BC（Fujimoto 和 Gu，2021 (https://arxiv.org/html/2606.07592#bib.bib9)）应用了简单的 BC 惩罚。这些方法使用固定的全局保守性系数。  

##### 基于集成的悲观主义。  

SAC-N（An 等，2021 (https://arxiv.org/html/2606.07592#bib.bib7)）和 EDAC（An 等，2021 (https://arxiv.org/html/2606.07592#bib.bib7)）训练大型评论家集成（通常 N=10–50），并使用 Q 值的最小值或均值减标准差作为悲观目标。ReBRAC（Tarasov 等，2023a (https://arxiv.org/html/2606.07592#bib.bib8)）重新审视了这些设计，并添加了额外的正则化和仔细的调参，在 D4RL 上取得了强劲结果。这些方法的计算成本随集成大小线性增长。我们明确与这些方法进行比较，并承认性能差距。  

##### 用于强化学习的共形预测。  

共形预测（Vovk 等，2005 (https://arxiv.org/html/2606.07592#bib.bib10)；Lei 等，2018 (https://arxiv.org/html/2606.07592#bib.bib11)）提供了有限样本、分布自由的预测区间，无需分布假设。Romano 等（2019 (https://arxiv.org/html/2606.07592#bib.bib12)）将其扩展到分位数回归。其在强化学习不确定性量化中的应用探索不足；UNIQ 是首批使用分裂共形校准（Papadopoulos 等，2002 (https://arxiv.org/html/2606.07592#bib.bib13)）将不确定性估计扩展到价值函数保守性的方法之一。相关并发工作（Bai 等，2022 (https://arxiv.org/html/2606.07592#bib.bib24)；Park 和 Sung，2023 (https://arxiv.org/html/2606.07592#bib.bib33)）探索了共形和基于不确定性的离线强化学习途径，我们在附录 A (https://arxiv.org/html/2606.07592#A1) 中区分了我们的方法。  

##### 自适应保守性。  

先前的工作通过密度模型（Yu 等，2021 (https://arxiv.org/html/2606.07592#bib.bib14)）或支持约束探索了状态依赖的惩罚，但这些通常需要辅助生成模型。UNIQ 则直接从集成不确定性推导出状态依赖的保守性，并经过校准而无需密度估计。  

## 3 方法  

UNIQ 扩展了 IQL，包含三个组件：(1) 用于提取不确定性的多分位数价值集成，(2) 用于归一化不确定性的分裂共形校准，(3) 状态自适应分位数控制器。我们逐一描述。  

### 3.1 IQL 骨干  

IQL 学习价值函数 V_φ(s) 和 Q 函数 Q_θ(s,a)，无需查询 OOD 动作。价值损失在分位数 τ 处使用非对称 L2 回归：  

L_V(φ) = E_{(s,a)∼D}[ |τ - 1(Q_θ(s,a) - V_φ(s) < 0)| (Q_θ(s,a) - V_φ(s))^2 ]. (1)  

策略通过优势加权回归提取：π ∝ exp(β(Q - V))。UNIQ 将等式 (1) 中的固定 τ 替换为学得的、状态依赖的 τ(s)（用于主价值网络），而 Q 函数目标使用悲观集成均值（等式 (7)）。  

### 3.2 多分位数价值集成  

我们训练 N_v 个集成成员 {V_{φ_k}}_{k=1}^{N_v}，在三个固定分位数水平 τ̄ ∈ {0.5, 0.7, 0.9} 上，共计 3N_v 个价值头。这种多分辨率拟合揭示两种互补的不确定性信号：  

σ_ens(s) = Std_k[ V_{φ_k}^{(0.7)}(s) ], (2)  
Δ_τ(s) = V̄^{(0.9)}(s) - V̄^{(0.5)}(s), (3)  

其中上划线表示集成均值。σ_ens(s) 捕获认识论分歧（集成不确定性）。Δ_τ(s) 捕获偶然性分布宽度（回报分布宽度），并用作诊断信号；推导和分析见附录 B (https://arxiv.org/html/2606.07592#A2)。τ∈{0.5, 0.9} 的头因而被训练来支持此诊断，并为共形校准步骤提供多分辨率 Bellman 残差。  

### 3.3 分裂共形校准  

原始的集成差异 σ_ens(s) 依赖于任务和尺度；值 0.5 可能在某个领域表示高不确定性，而在另一个领域表示低不确定性。我们使用*分裂共形预测*（Papadopoulos 等，2002 (https://arxiv.org/html/2606.07592#bib.bib13)）将 σ_ens(s) 转换为校准后的、分布自由的不确定性分数。我们保留一个校准集 D_cal ⊂ D（与训练集不相交）。对于每个校准转移 (s_i, a_i, r_i, s_i′)，我们计算非一致性分数：  

α_i = | r_i + γ V̄^{(0.7)}(s_i′) - V̄^{(0.7)}(s_i) |, (4)  

它衡量集成的 Bellman 残差与校准数据的拟合程度。然后我们计算 {α_i} 的 (1-δ) 分位数 q̂，得到一个数据驱动的阈值，以有限样本保证覆盖至少 1-δ 的校准转移（Vovk 等，2005 (https://arxiv.org/html/2606.07592#bib.bib10)）。任意状态下的归一化不确定性为：  

u(s) = σ_ens(s) / (q̂ + ε), (5)  

其中 ε > 0 避免除以零。此归一化是全局重缩放，使 σ_ens 在不同任务间可比；q̂ 充当环境自适应尺度因子，而非逐状态的共形保证。当 u(s) > 1 时，集成差异超过校准的 Bellman 残差阈值——表明状态覆盖不佳。当 u(s) < 1 时，相对于校准分布，状态覆盖良好。  

### 3.4 状态自适应保守性  

我们通过 sigmoid 调度将归一化不确定性 u(s) 映射到自适应分位数：  

τ(s) = τ_min + (τ_max - τ_min) · σ_sig( -β_τ (u(s) - 1) ), (6)  

其中 σ_sig(·) 是逻辑 S 形函数。当 u(s) ≫ 1（高不确定性、OOD）时，τ(s) → τ_min——更保守。当 u(s) ≪ 1（覆盖良好）时，τ(s) → τ_max——更乐观。此外，我们应用全局悲观价值目标：  

V_pess(s) = V̄^{(0.7)}(s) - κ σ_ens(s), (7)  

它用于 Q 函数的 Bellman 目标。关键地，κ 是每任务离线选择的，使用留出数据集统计量；所有值见附录 C (https://arxiv.org/html/2606.07592#A3)。等式 (6) 和等式 (7) 共同构成了 UNIQ 的自适应保守性机制。  

### 3.5 完整训练过程  

算法 1 (https://arxiv.org/html/2606.07592#alg1) 总结了 UNIQ。共形分位数 q̂ 在校准集上定期重新计算，使阈值能够随价值集成训练而自适应。  

**算法 1** UNIQ 训练  

1: 将离线数据集 D 划分为训练集 D_train 和校准集 D_cal  
2: 初始化多分位数集成 {V_{φ_k}^{(τ̄)}}_{k=1, τ̄∈{0.5, 0.7, 0.9}}、主价值网络 V_φ、Q 网络 Q_θ、策略 π_ψ  
3: **for** 每个训练步 t **do**  
4: 从 D_train 中采样批次  
5: 在固定 τ̄∈{0.5, 0.7, 0.9} 下通过分位数损失更新集成成员 V_{φ_k}^{(τ̄)}  
6: 通过等式 (2) 计算 σ_ens(s)  
7: **if** t mod T_recal = 0 **then**  
8: 在 D_cal 上重新计算共形分位数 q̂  
9: **end if**  
10: 通过校准映射（等式 (6)）计算 u(s) 和 τ(s)  
11: 使用自适应分位数损失（等式 (1)）更新主 V_φ，采用 τ(s)  
12: 通过等式 (7) 计算 V_pess(s′)；使用 V_pess 通过 Bellman 备份更新 Q_θ  
13: 使用 Q_θ - V_φ 通过优势加权回归更新 π_ψ  
14: **end for**  

## 4 实验  

### 4.1 设定  

我们在 D4RL MuJoCo 基准测试（Fu 等，2020 (https://arxiv.org/html/2606.07592#bib.bib15)）上进行评估：三个运动环境（HalfCheetah、Hopper、Walker2d）和三种数据集类型（medium、medium-replay、medium-expert）共 9 个任务。这些数据集的覆盖质量差异显著。*Medium* 数据集包含次优 rollout；*medium-replay* 数据集包含训练至中等策略过程中的重放缓冲区数据，具有高行为多样性；*medium-expert* 数据集混合了专家和中等质量转移。BC、TD3+BC、CQL、IQL、EDAC、ReBRAC、SAC-N 和 DT（Chen 等，2021 (https://arxiv.org/html/2606.07592#bib.bib35)）的基线分数取自已发表报告和 CORL 基准汇总（Tarasov 等，2023b (https://arxiv.org/html/2606.07592#bib.bib16)）。所有 UNIQ 值是种子 0–2 的平均值。实验在 A100 20 GB MIG 实例上运行。可复现性

UNIQ：面向离线强化学习的共形校准自适应保守性方法

相似文章

UniScale: 通过模型路由与测试时扩展的在线联合优化实现自适应统一推理扩展

自动驾驶中基于不确定性感知与时间规制的专家建议强化学习

用于样本高效连续控制的无偏模型化表示

信任区域Q伴随匹配

隐式压缩正则化：通过强化学习后训练中的内部短分布实现简洁推理

提交意见反馈