性能驱动的多时间尺度学习环境抽象

arXiv cs.LG 论文

摘要

本文提出了一种用于强化学习的性能驱动的状态抽象方法,直接优化决策质量,采用多时间尺度框架共同调整策略和树状结构抽象。该算法基于Q值差异细化或聚合状态空间,相比基线实现了更好的样本效率和更快的重新规划。

arXiv:2606.17377v1 公告类型:新 摘要:我们研究用于大规模马尔可夫决策过程中决策的性能驱动环境抽象化。我们不追求保持几何或拓扑结构,而是寻求直接优化决策质量的抽象。我们将抽象建模为通过聚合状态空间并在每个聚合状态内强制共享动作分布而获得的可控近似。对于固定划分,我们建立了一个性能保证,将价值函数近似误差与动作共享带来的损失分离开来。受此分析指导,我们开发了一个多时间尺度强化学习框架,共同调整策略和树状结构的环境抽象。生成的算法根据Q值差异细化或粗化状态空间的区域,在性能与抽象大小和复杂度之间取得平衡。实验结果表明,与Actor-Critic基线相比,实现了显著的状态压缩、更高的样本效率和更快的重新规划。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:37

# 基于多时间尺度学习的性能驱动环境抽象
来源:https://arxiv.org/html/2606.17377

Dipankar Maity (https://arxiv.org/html/2606.17377v1/mailto:%[email protected]%3E?Subject=Your%20UAI%202026%20paper)  
北卡罗来纳大学夏洛特分校 电气与计算机工程系 夏洛特,北卡罗来纳州,美国  
Panagiotis Tsiotras (https://arxiv.org/html/2606.17377v1/mailto:%[email protected]%3E?Subject=Your%20UAI%202026%20paper)  
佐治亚理工学院 航空航天工程学院 亚特兰大,佐治亚州,美国

###### 摘要

我们研究用于大规模马尔可夫决策过程中决策的性能驱动环境抽象。我们寻求的不是保留几何或拓扑结构,而是直接优化决策质量的抽象。我们将抽象建模为一种受控近似,通过聚合状态空间并在每个聚合状态内强制执行共享的动作分布来实现。对于固定划分,我们建立了一个性能保证,将价值函数近似误差与动作共享引入的损失分离开来。在此分析指导下,我们开发了一个多时间尺度强化学习框架,该框架联合调整策略和树形结构的环境抽象。由此产生的算法基于 Q 值差异来细化和粗化状态空间区域,在性能与抽象大小和复杂度之间取得平衡。实证结果表明,与 Actor-Critic 基线相比,该方法实现了大幅状态压缩、更高的样本效率以及更快的重规划。

## 1 引言

人类及其他智能物种通过形成环境的简化表示来降低复杂性,在保留任务相关结构的同时丢弃无关细节 [eppe2022intelligent]。一种关键机制是**层级表示** [hughes2024foundations],其中决策以粗分辨率进行,仅需时才细化。通过将推理聚焦在合适的抽象层次上,智能体能够处理复杂任务,同时保持对新任务和不断变化的环境的适应性。因此,在线自动构建层级表示的能力被广泛视为智能的基本组成部分 [simon1962architecture, botvinick2008hierarchical]。

这种层级推理能力在现代大规模自主系统中日益必需,因为在原始状态空间直接规划在计算上变得不可行,且可能无法满足安全关键的反应时间。现有方法通常使用信息论 [larsson2020q, ravichandran2022hierarchical] 或结构启发式 [machado2017eigenoption, dean1995decomposition, guan2022hierarchical] 来压缩环境。然而,合适的抽象本质上是依赖于任务和性能的,因为不同的任务和性能要求会导致不同的压缩表示。

本文研究**性能驱动的状态抽象**。我们寻求的不是保留几何或拓扑,而是直接优化决策质量的抽象。我们将环境抽象视为受控的状态空间聚合,并且仅在这样做能提升智能体性能时,才自适应地细化和粗化状态空间。我们推导出性能保证,确定了次优性的两个来源:(i) 价值函数近似误差,(ii) 在聚合状态内强制执行共享动作分布所导致的损失。基于此分析,我们设计了一个多时间尺度强化学习方案,其中策略在缓慢变化的环境抽象下收敛,该抽象通过基于 Q 值的细化和聚合机制进行演化。由此产生的算法持续重组状态空间聚合,以保持紧凑的表示,同时提升决策性能。经验上,学到的抽象能提升性能,并在相关任务间实现迁移。

#### 贡献。

本文的贡献有三点:(i) 环境抽象下决策的性能界,将值近似误差与聚合状态内的动作共享误差分开;(ii) 基于 Q 值的准则,为基于树的抽象提供了原则性的细化和聚合规则;(iii) 联合调整策略和抽象的多时间尺度学习算法。

### 1.1 相关工作

层级决策的一条核心研究线关注**时间抽象**。选项框架 [sutton1999between] 和封建层级 [dayan1992feudal] 引入了多层级策略,其中高层控制器选择子目标,由低层策略执行直到终止。后续扩展 [mcgovern2001automatic, csimcsek2005identifying, mahadevan2007proto] 改善了探索和样本效率,但操作在原始状态空间而非压缩后的状态空间上。

相比之下,**状态空间抽象**方法旨在将状态合并为超级状态,并直接在抽象层进行推理。Proto-Value Functions [mahadevan2007proto, machado2017eigenoption]、基于信息瓶颈的树搜索 [larsson2020q, larsson2023information] 以及基于启发式的方法 [ravichandran2022hierarchical, hughes2024foundations] 构建了保留拓扑或信息结构的层级表示。然而,这些抽象通常是领域特定的,并未针对下游任务性能进行显式优化。

与我们的工作更接近的是**性能驱动的抽象**,其中分区被调整以提升价值而非保留几何。Baras 和 Borkar [baras2000learning] 提出了一种基于量化器的层级 Actor-Critic,通过多时间尺度随机逼近进行细化,后来扩展到连续域,结合了基于价值的距离和熵正则化 [mavridis2021maximum]。虽然有效,但这些方法并未显式分析在聚合状态内强制执行共享动作分布所导致的性能损失。我们提供了将值函数近似误差与动作共享误差分开的理论保证,从而产生基于 Q 值的聚合准则。

树结构抽象方法如 U-Tree [mccallum1996reinforcement, jonsson2000automated] 和条件抽象树 [dadvar2023conditional] 使用 TD 误差统计自适应地拆分状态。这些方法依赖于迭代的离策略过程,并且仅支持细化而不支持聚合。相比之下,我们通过统一的多时间尺度方案联合调整抽象和策略,证明 Q 值作为结构准则的合理性,并引入一种单步前视/后退机制,从而实现原则性的细化和合并操作。

总体而言,先前的工作要么依赖固定抽象,要么在没有性能保证的情况下启发式地调整分区,要么专注于时间抽象而非空间抽象。我们的框架通过显式刻画性能损失并用其指导统一学习方案中原则性的细化和聚合,弥补了这一不足。

## 2 问题表述

我们考虑一个折扣马尔可夫决策过程 (MDP) ⟨S,A,R,P,β⟩,其中 S 和 A 是有限的状态和动作空间,P(s′|s,a) 是转移核,R(s) 是奖励函数,β∈[0,1) 是折扣因子。一个平稳策略 π(a|s) 诱导出价值函数:

Vπ(s)=Eπ[∑t=0∞βtR(St) | S0=s]。 (1)

我们的目标是找到一个策略,最大化性能 J(π;μ0)=∑s μ0(s) Vπ(s),其中 μ0 是初始状态分布。

构建这样一个最优策略的一种方式是通过最优价值函数 V*,它是 Bellman 算子的不动点:

(BS V*)(s)=maxa∈A [R(s)+β∑s′∈S P(s′|s,a) V*(s′)]。 (2)

然而,当 |S| 很大时,评估 (2) 在计算上变得不可行,从而激发了对状态空间的约简表示。

#### 状态聚合。

我们使用**状态聚合** Γ={γ1, …, γm} 来近似决策问题,其中 ∪k=1m γk=S,且当 i≠j 时 γi∩γj=∅。每个 γk⊆S 称为一个**超级状态**,聚合映射 φΓ: S→Γ 将每个状态分配给它的超级状态。从概念上讲,Γ 定义了环境的一个抽象,并作为用于决策的约简状态表示。

令 πΓ: Γ×A→[0,1] 表示一个聚合策略。在这种表述下,同一超级状态内的所有状态共享相同的动作分布,我们称之为**相同动作分布 (SAD)** 约束。一个聚合策略总是通过下式在 S 上诱导出一个策略:

π(a|s)=πΓ(a|φΓ(s))。

对于聚合策略,决策是在 Γ 而非 S 上进行的。这减小了策略搜索空间,并允许以“最小关注” [brockett1997minimum] 的方式执行策略,其中状态表示是“粗粒度的”。图 1 展示了 SAD 约束的效果。

见图注

图 1:SAD 约束在网格世界中的效果。左:围绕右下角的粗粒度聚合迫使动作随机化,可能导致智能体在红星处停滞。右:细化聚合消除了随机化的需要,使导航更快。

#### 抽象 - 策略优化。

上述表述导致以下优化问题,我们在此联合选择状态聚合和聚合策略,在性能与表示复杂度之间取得平衡:

maxπΓ,Γ J(πΓ;μ0)−λ|Γ|, (3)

其中 λ>0 惩罚超级状态的数量。

上述问题是内在耦合的。SAD 约束引入了近似误差,其大小取决于所选的聚合。相反,评估聚合策略的性能需要值函数在动作不同的区域具有足够的分辨率。Γ 和 πΓ 之间的这种内在耦合使得直接求解 (3) 具有挑战性。

## 3 在固定聚合下学习策略

我们引入聚合 Bellman 算子,并在固定聚合 Γ 下学习最优策略。然后我们量化 SAD 约束导致的性能损失。

给定一个状态分布 μ,定义聚合奖励和转移核:

RΓ,μ(γ)=∑s∈γ μγ(s) R(s),
PΓ,μ(γ′|γ,a)=∑s∈γ ∑s′∈γ′ μγ(s) P(s′|s,a),

其中 μγ(s)=μ(s)/∑s∈γ μ(s) 是 γ 内部的归一化分布。那么,聚合策略 πΓ 在 Γ 上评估的性能满足:

V̄πΓΓ,μ(γ)=RΓ,μ(γ)+β∑a∈A πΓ(a|γ)∑γ′∈Γ PΓ,μ(γ′|γ,a) V̄πΓΓ,μ(γ′)。

最优聚合价值函数是以下算子的不动点:

(BΓ,μ V̄)(γ)=maxa∈A [RΓ,μ(γ)+β∑γ′∈Γ PΓ,μ(γ′|γ,a) V̄(γ′)], (4)

我们将 BΓ,μ 称为**聚合 Bellman 算子**,其唯一不动点记为 V̄*Γ,μ。

### 3.1 聚合 Actor-Critic。

为了在固定划分 Γ 下计算最优聚合策略,我们采用了一个双时间尺度 Actor-Critic (AC) 算法 [borkar1997stochastic]。Critic 估计聚合价值函数,而 Actor 更新 softmax 策略参数化。

令 Γt=φΓ(St) 表示 t 时刻包含 St 的超级状态。聚合的 Critic 和 Actor 更新如下:

V̄t+1(Γt)=(1−ξt) V̄t(Γt)+ξt (Rt+β V̄t(Γt+1)), (5)
Q̄t+1(Γt,At)=Pq ( Q̄t(Γt,At)+ζt (Rt+β V̄t(Γt+1)−V̄t(Γt)) ),

其中 Pq 投影到 [−q,q] 以确保有界性。

动作 At 从 Boltzmann 策略采样:

ψQ̄t(Γt,a)=eQ̄t(Γt,a)∑a′ eQ̄t(Γt,a′)。 (6)

为确保收敛,Critic 以比 Actor 更快的时间尺度运行,即 limt→∞ ζt/ξt=0。这种在线策略方案通过轨迹样本隐式估计了 (4) 中 πΓ 诱导的状态分布 μ。

在下面关于步长的标准条件下,收敛性遵循经典的双时间尺度理论。

###### 假设 1。

学习率 {ξt} 和 {ζt} 满足:

∑t=0∞ ξt=∑t=0∞ ζt=∞, ∑t=0∞ ξ2t<∞, ∑t=0∞ ζ2t<∞,
limt→∞ ξt+1/ξt=1, limt→∞ ζt/ξt=0。

###### 引理 1 ([baras2000learning])。

在假设 1 下,聚合 Actor-Critic 几乎必然收敛到 Q̄*。收敛后的 AC

相似文章

面向可扩展多任务强化学习的大决策模型

arXiv cs.LG

本文介绍了LDM-v0,一个在来自数千个多样强化学习环境的轨迹上离线训练的大决策模型,证明了单一的Transformer策略可以在机器人、自动驾驶、库存管理、网络安全、交易和视频游戏等领域匹配特定任务策略的性能。

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

寻找思考的时间:实时强化学习中的规划预算学习

arXiv cs.LG

本文引入了可变延迟实时强化学习,其中智能体决定在环境持续运行的情况下需要多长时间的思考,并提出了一种轻量级的门控策略来选择基于状态的规划预算,在多个实时游戏中优于固定预算和启发式基线。