训练可观察的控制策略以通过动作暴露智能体状态

arXiv cs.LG 论文

摘要

本文研究使用强化学习训练可观察的控制策略,从而能够通过智能体的动作估计其状态,并在通信受限条件下应用于多智能体协调与监控。

arXiv:2606.27609v1 Announce Type: new 摘要:物理或操作约束常常给自主智能体带来通信限制。这些限制使监控或多智能体协调变得复杂。即使没有强通信,一些信息仍然可能可用。相关的智能体状态的其余部分可以通过估计重建。智能体采取的动作是一个潜在的信息来源——随着智能体与环境交互,这些动作即使在缺乏显式通信的情况下也可能被观察到。我们研究利用动作来估计智能体的状态,使用强化学习开发使估计问题更易处理的策略。通过训练奖励鼓励策略的可观测性,并使用训练后智能体的仿真进行分析。在一个飞行器追踪问题中,发现了一种具有增强可观测性的策略,该策略对名义任务性能的影响最小。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:23

# 训练可观察控制策略以通过动作暴露智能体状态³
³从强化学习智能体的动作估计系统状态,AIAA 2023-2657,会议:自主性 V,在线发表于 2023年1月19日,https://doi.org/10.2514/6.2023-2657,AIAA Scitech 2023 论坛,2023年1月23-27日,马里兰州国家港口与线上
⁴通过可观察控制策略实现车辆间协调,AIAA 2024-0989,会议:自主性,在线发表于 2024年1月4日,https://doi.org/10.2514/6.2024-0989,AIAA Scitech 2024 论坛,2024年1月8-12日,佛罗里达州奥兰多
来源:https://arxiv.org/html/2606.27609
Andres Enriquez Fernandez¹¹研究生助理,航空航天与机械工程系,500 W University,埃尔帕索,TX 79968,[email protected],AIAA 会员。
John J. Bird²²助理教授,航空航天与机械工程系,500 W University,埃尔帕索,TX 79968,AIAA 会员。

###### 摘要

物理或操作约束通常会给自主智能体带来通信限制。这种限制会使监控或多智能体协调复杂化。即使缺乏强通信,某些信息仍然可能可用。其余相关的智能体状态可以通过估计重建。智能体采取的动作是一个潜在的信息来源——当智能体与环境交互时,即使没有显式通信,这些动作也可能被观察到。我们研究利用动作来估计智能体的状态,并使用强化学习来开发使估计问题更容易处理的策略。通过训练奖励鼓励策略的可观测性,并通过训练后智能体的仿真进行分析。在一个飞行器跟踪问题中,我们找到了一个具有增强可观测性的策略,该策略对名义任务性能的影响极小。

## 1 引言

协作智能体之间的有效协作(包括自主智能体之间以及人与自主智能体之间的协调)通常依赖于对每个智能体至少部分状态的相互理解。这通常通过直接通信实现,从而支持复杂行为、协调、环境信息共享和子任务学习[panait2005cooperative, dorri2018multi]。然而,通信的可靠性和可用性并不能得到保证。通信限制可能出现在信道层面,如延迟、丢包和带宽限制。由于物理或操作上的考虑,也可能出现有限或缺失的直接通信。环境可能抑制通信(例如水下),过多通信可能损害操作,或者智能体可能未配备用于直接通信的通用硬件或语言。

将问题表述为部分可观测马尔可夫决策过程(POMDP)为解决状态未直接通信时引入的不确定性提供了一种方法。在这种表述下,每个智能体的状态向量包括该智能体对其他智能体状态的信念[roth2006communicate],并且智能体因其集体动作而获得奖励[liu2016learning]。这将决策模型与所有智能体的集体动作耦合。这种结构的一个含义是,即使单个智能体的任务发生变化,也需要重新训练所有智能体,这在联邦系统中限制了实用性。另一个实际约束是,POMDP 方法的可扩展性很差,因为联合动作、状态和观测空间的维度随智能体数量呈指数增长[amato2015scalable]。

当协调被当作 POMDP 处理时,通过训练过程会在智能体中隐式地发展出一个观察者[muphy2000survey]。另一种“解耦”智能体的方法是采用控制系统中常见的观察者-控制器结构,显式地构建一个估计器,而不是通过扩展的智能体状态隐式地训练它。在这里,估计器吸收一部分可用信息来推断其他智能体的所需状态,从而实现协调[8814643]。观测数据的一个选择是智能体采取的控制动作。这些观测的优势在于观测模型已经定义(即控制策略),并且在某些情况下,它们可以通过直接观察而无需显式通信就能被看到;实际上,它们可能“免费广播”。

通过观察动作进行这种隐式信息共享的非正式例子出现在许多情境中。例如,地面车辆急刹车或变道可能表示前方有障碍物;在附近有交通流时观察到飞机改变航向,很可能是它已经目视发现该飞机;而放下起落架的飞机很可能靠近机场。启用这种隐式通信并提高其效率,可以在通信受限场景中实现自主智能体之间的协调。它还可能提高人机混合操作的安全性和舒适性,因为人类操作员更容易理解智能体在做什么。

为了提高智能体控制策略的可观测性,我们构建了一个估计器,该估计器将控制策略选择的动作作为观测。我们在智能体执行目标跟踪任务的同时,训练策略以奖励估计器的性能。将可观察策略与仅训练用于执行跟踪任务的策略进行比较,比较内容包括仅任务性能、估计质量以及可观测性度量。

虽然这项工作的一个目标是实现通信受限场景中的协调,但我们这里重点关注仅从单个智能体的有限观测流中估计其状态。如果能够可靠地确定状态,就可以使用估计状态来定义协作控制策略[yang2008multi, smith2007closed]。结果是一个场景,在该场景中,只要智能体的控制策略能在任务前共享给其他智能体,它们就可以被分别训练和更新。

本工作的贡献包括:1)我们实现了一个仅使用智能体控制策略输出作为观测的智能体状态估计器;2)我们使用强化学习提高控制策略的可观测性;3)我们通过对可观测性矩阵进行奇异值分解分析以及蒙特卡洛仿真,证明所得策略在最小影响名义任务性能的同时,改善了估计器性能。

图1 (https://arxiv.org/html/2606.27609#S1.F1) 说明了我们的测试问题——控制策略必须通过控制飞机的坡度角,使一架固定翼飞机保持靠近目标点。第二个智能体通过仅观察第一个智能体选择的操控指令,试图确定第一个智能体相对于目标点的位置(\(x_{relative}, y_{relative}\))和速度(\(\dot{x}_{relative}, \dot{y}_{relative}\))。

![参考标题](图1:用于探索训练可观察控制策略的示例问题。估计器必须仅通过观察操控指令 \(\phi\) 来确定智能体的状态(相对于目标的位置和速度)。)

## 2 智能体定义

决策智能体可以广义地描述为具有一个控制策略——一个将智能体状态(可以包括物理状态和智能体的内部信息状态)与要执行的控制动作相关联的映射。智能体的目标是引导系统从某个状态 \(\mathbf{s}_k\)(在第 \(k\) 步)过渡到未来的一个或多个状态 \(\left\{ \mathbf{s}_{objective} \right\}\)。该模型可以描述从经典控制系统到人类操作员的各种系统 [kelly2019hg]。控制策略可以通过直接的数学分析或数据驱动方法构建,并且可以容纳确定性和概率性的智能体以及控制方法。我们特别关注概率性智能体,它将状态与动作上的分布相关联:

\[
\pi: \mathbf{s}_k \rightarrow p(\mathbf{a}) \quad \forall \mathbf{a} \in \mathcal{A}(\mathbf{s}_k)
\]

其中 \(\pi\) 是智能体的策略函数,\(\mathbf{a}\) 是一个动作,\(p(\mathbf{a})\) 是与动作相关的概率密度函数,\(\mathcal{A}(\mathbf{s}_k)\) 是在状态 \(\mathbf{s}_k\) 下允许的所有动作的集合。智能体在每个决策间隔期间采样一个动作 \(\tilde{\mathbf{a}} \sim p(\mathbf{a})\) 并执行。因此,对于连续状态和动作,控制是一个从 \(\mathbb{R}^n\) 映射到 \(\mathbb{R}^m\) 的随机函数,其中 \(n\) 是状态空间的维度,\(m\) 是动作空间的维度。

我们使用神经网络表示策略函数,并通过强化学习和仿真环境进行训练。神经网络的输入是系统状态,输出是伪控制分布的参数,对该分布进行采样以获得控制变量。伪控制到控制的映射由下式给出:

\[
\mathbf{a}_i = \tanh(\mathbf{u}_i) \mathbf{a}_{i,\text{saturation}} \tag{1}
\]

其中 \(\mathbf{u}_i\) 是采样的伪控制向量的元素,乘以控制限制 \(\mathbf{a}_{i,\text{saturation}}\)。采样的控制动作在训练和评估期间都会影响智能体动力学的演化。采样的动作也可用于旨在估计智能体状态的估计系统。

## 3 估计器与奖励嵌入

我们使用无迹卡尔曼滤波器 (UKF) [simon2006optimal] 构建估计器,该滤波器非常适合处理系统动力学和控制策略中的非线性。滤波器使用已知动力学和预期控制动作向前传播状态估计,同时将智能体的伪控制动作 \(\tilde{\mathbf{u}}\) 作为观测同化。该伪控制是根据智能体当前状态 \(\mathbf{s}_k\) 从其策略输出分布中采样得到的。因此,控制策略可以被解释为滤波器的测量函数,而每个状态下的动作分布表征了观测噪声。测量更新创新是实际控制动作与预期状态处预期控制动作之间的差异:

\[
\mathbf{z} = (\tilde{\mathbf{u}} - \hat{\mathbf{u}}) = (\tilde{\mathbf{u}} - \mathbb{E}(\mathbf{u})) = (\tilde{\mathbf{u}} - \mathbb{E}(\pi(\hat{\mathbf{s}}_k)))
\]

其中 \(\mathbf{u}\) 是根据策略函数分布的随机变量,\(\tilde{\mathbf{u}}\) 是观测到的动作分布实现,\(\hat{\mathbf{u}}\) 是在当前状态估计处动作的期望值。我们假设估计器事先已知系统动力学和控制策略。然而,在运行时,估计器唯一可用的信息是智能体的伪控制动作。先前使用该滤波器公式的测试 [doi:10.2514/6.2023-2657] 表明,估计器并非对所有策略都表现良好。为了解决这个挑战,我们将估计器嵌入到训练环境中,同时仿真估计状态和系统实际状态的演化。然后,估计器性能可作为奖励信号,用于增强仅任务奖励:

\[
r = r_{\text{task-only}} + \mathcal{R}(\hat{x}, x) \tag{2}
\]

其中 \(r\) 是给定任务的奖励,\(\mathcal{R}(\hat{x}, x)\) 是一个奖励函数,它促进那些使估计状态趋向真实状态的动作。现在策略旨在最大化任务性能,同时选择能提高估计器性能的动作。请注意,即使一个策略导致仅任务奖励降低,求和也允许获得等同(或更高)的总奖励。因此,提高估计器性能可能会以牺牲目标任务性能为代价。

### 3.1 可观测性

估计器的性能可以通过预期状态与真实状态之间误差的分布来诊断。虽然这提供了非常直接的性能度量,但必须已知真实状态。此外,确定误差来源可能很困难,因为它可能源于传感器质量、系统误差,或者因为可用观测对状态的可观测性较差。可观测性问题很重要,因为它对任何估计器的性能都施加了数学约束,无论其结构或算法如何。虽然非线性系统的可观测性很难解析计算,但我们可以线性化一个离散非线性系统:

\[
\dot{x}_k = f_{k-1}(x_{k-1}), \quad y_k = h(x_k)
\]

使用关于状态 \(x_{k-1}\) 的泰勒级数近似状态方程,以及关于 \(x_k\) 的泰勒级数近似测量模型方程:

\[
x_k \approx f_{k-1}(x_{k-1}) + A_{k-1}(x - x_{k-1}), \quad y_k \approx h(x_k) + C(x - x_k)
\]

其中 \(A_{k-1} = \frac{\partial f_{k-1}}{\partial x} \biggr|_{x_{k-1}}\) 且 \(C = \frac{\partial h_k}{\partial x} \biggr|_{x_k}\)。在每个状态下,可以计算一个近似的可观测性矩阵:

\[
\mathcal{O}_r = \begin{bmatrix} C_r^\intercal & (C_r A_r)^\intercal & (C_r A_r^2)^\intercal & \dots & (C_r A_r^{n-1})^\intercal \end{bmatrix}^\intercal \tag{3}
\]

其中 \(C_r\) 是观测模型的线性近似,通过计算非线性观测模型相对于时间 \(r\) 状态向量的梯度得到,\(A\) 类似地是时间 \(r\) 非线性系统动力学的线性化,\(n\) 是状态向量的维度。时间 \(r\) 的可观测性可以通过 \(\mathcal{O}_r\) 的奇异值来评估。在线性情况下,这种可观测性评估是决定性的——如果 \(\mathcal{O}_r\) 的最小奇异值接近零,则状态空间中的某些方向是不可观测的。

在非线性情况下,可观测子空间可能随状态而变化;如果可观测子空间在系统信息退化之前演化到覆盖整个状态空间,则该系统在动态意义上可以是整体可观测的 [Powel2020]。一个状态序列 \(\{\mathbf{s}_1, \mathbf{s}_2, \dots, \mathbf{s}_r\}\) 的可观测性可以通过剥离可观测性矩阵 (SOM) 近似评估 [li2012observability]:

\[
\mathcal{O}_s(r) = \begin{bmatrix} \mathcal{O}_1^\intercal & \mathcal{O}_2^\intercal & \dots & \mathcal{O}_r^\intercal \end{bmatrix}^\intercal \tag{4}
\]

其中 \(\mathcal{O}_r\) 是近似的可观测性矩阵,通过按照公式3所述在每个时间步线性化系统得到。可观测性可以通过...

相似文章

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。

多智能体系统中的策略表示学习

OpenAI Blog

OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。

可扩展的约束多智能体强化学习:通过状态增强与一致性实现可分离动力学

arXiv cs.LG

本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。