马氏距离引导的时变系统混合ES-DRL控制潜在OOD检测

arXiv cs.LG 2026/06/11 04:00 论文

摘要

本文提出了一种基于马氏距离的潜在异常检测方法，利用VAE在时变系统中切换强化学习控制器和极值搜索控制器，并在粒子加速器控制中进行了验证。

arXiv:2606.11474v1 公告类型：新摘要：本文研究了在非线性时变系统中，基于马氏距离的潜在异常检测方法，用于测试时的强化学习控制器切换。强化学习控制器能够在训练分布内快速控制高维系统，但当时变动态产生未见过的观测时，其性能可能会下降。我们考虑了一种结合极值搜索与深度强化学习的控制器，其中RL提供快速的分布内动作，而有界极值搜索在异常操作下提供鲁棒的模型无关控制。关键挑战在于何时切换。我们在分布内束流剖面观测上训练了一个变分自编码器（VAE），并在VAE潜在空间中使用马氏距离来检测测试时的异常束流剖面。此异常判断设置一个二元开关，选择RL控制器或ES控制器。我们在安全关键的粒子加速器控制中评估了该方法。在此场景中，空间磁体运动会产生RL训练期间未出现的异常束流剖面。VAE潜在空间的可视化显示，所提方法能够识别这种异常情况，并为组合控制器中RL与ES之间的切换提供可解释的信号。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:47

# 混合ES–DRL控制中基于马氏距离引导的潜在分布外检测用于时变系统

来源：https://arxiv.org/html/2606.11474

###### 摘要

本文研究了非线性时变系统中，基于马氏距离引导的潜在分布外（OOD）检测，以实现测试时的RL控制器切换。RL控制器能够在训练分布内快速控制高维系统，但当时变动力学产生未见过的观测时，其性能会下降。我们考虑一种结合了ES和DRL的混合控制器，其中RL提供快速的分布内动作，而有界极值搜索（ES）在OOD操作下提供鲁棒的模型无关控制。关键挑战在于决定何时切换。我们使用分布内束流剖面观测训练一个变分自编码器（VAE），并利用VAE潜在空间中的马氏距离在测试时检测OOD束流剖面。该OOD决策设置一个二元开关，用于选择RL控制器或ES控制器。我们在安全关键的粒子加速器控制中评估该方法。在此场景中，空间磁体运动产生RL训练期间未见过的OOD束流剖面。VAE潜在空间的可视化表明，所提出的方法能够识别这种OOD情景，并为混合控制器中RL和ES之间的切换提供可解释的信号。

机器学习，ICML

## 1 引言

强化学习（RL）是高维控制领域一种有前途的方法，因为它可以通过仿真交互学习快速策略（Sutton and Barto，2018（https://arxiv.org/html/2606.11474#bib.bib31）），并在现实世界的机器人系统中取得了巨大成功（Gu等人，2017（https://arxiv.org/html/2606.11474#bib.bib1））。然而，学习到的RL策略通常仅在其训练分布附近可靠（Danesh and Fern，2021（https://arxiv.org/html/2606.11474#bib.bib13））。当系统随时间变化，出现执行器漂移、校准误差、工作条件变化或几何扰动时，部署的观测可能变得分布外（OOD），从而导致性能下降或不安全的动作。

目前有许多持续的努力旨在提高深度学习方法的鲁棒性和安全性，特别是针对变化系统的RL方法。动作约束RL（ACRL）是一个学习具有零动作约束违反控制策略的通用框架，这是各种安全关键和资源受限应用所必需的（Hung等人，2025（https://arxiv.org/html/2606.11474#bib.bib5））。安全强化学习是一种针对现实世界问题的RL方法，当存在足够精确的模型以避免不安全状态时，通过提前规划未来短时间来避免不安全状态（Thomas等人，2021（https://arxiv.org/html/2606.11474#bib.bib3））。为新颖问题设计深度RL算法的难度正在通过新的自动化RL框架进行研究（Parker-Holder等人，2022（https://arxiv.org/html/2606.11474#bib.bib6））。针对LLMs在适应新数据分布时面临的困难，检索增强型LM正在被研究（Asai等人，2024（https://arxiv.org/html/2606.11474#bib.bib4））。

非线性时变系统使得这个问题尤为重要，因为部署条件可能与训练期间所见不同。在此场景下，混合控制器非常有用，因为它结合了基于学习和无模型控制的互补优势。当观测值保持接近训练分布时，RL策略可以为高维系统产生快速、协调的动作。相比之下，鲁棒的无模型控制器（如极值搜索（ES））可以在动力学漂移时持续适应，但在大动作空间中可能收敛较慢。因此，混合架构利用RL进行快速的分布内控制，而ES在系统变得不确定或分布不熟悉时提供鲁棒性。

粒子加速器控制是这一挑战的代表性例子。粒子加速器支持广泛的科学应用，包括中子产生、材料表征、核物理、医用同位素生产和高能物理实验。这些系统是安全关键的：糟糕的控制动作会增加束流损失，将束流推向孔径极限，或降低实验操作质量。因此，学习型控制器必须谨慎部署，当束流动力学超出训练期间所见条件时，不应盲目信任。在我们的设置中，RL控制器作用于四极磁铁强度，而监督器监测束流剖面观测。时变的磁铁运动和几何变化可能将束流动力学推离RL训练分布。

核心挑战是在测试时选择RL和ES之间的切换。我们研究用于RL控制器切换的基于马氏距离引导的潜在OOD检测。在分布内束流剖面观测上训练一个概率潜在模型，并将每个测试时的观测嵌入到低维潜在空间中。然后利用当前潜在表示与分布内潜在模型之间的马氏距离来选择二元切换系数β_t。小距离选择RL控制器，而大距离表示OOD行为并触发切换到ES。通过这种方式，混合ES–DRL控制器中的监督器被表述为一个潜在OOD检测问题。

## 2 相关工作

#### 混合RL与备用控制。

混合控制架构结合了学习型RL策略的快速决策能力和经典、自适应或无模型控制器的鲁棒性。近期工作将深度RL与有界极值搜索相结合，以提高非线性时变系统的鲁棒性，包括加速器调谐，其中RL提供快速标称控制，而备用控制器在漂移条件下保持性能（Saxena等人，2025（https://arxiv.org/html/2606.11474#bib.bib7））。一种相关的混合控制器也已被研究用于分布偏移下的机器人操作，包括时变目标和空间变化的摩擦（Saxena等人，2026（https://arxiv.org/html/2606.11474#bib.bib8））。其他混合RL控制方法将学习策略与模型预测控制或自适应控制相结合，例如通过actor-critic MPC（Romero等人，2025（https://arxiv.org/html/2606.11474#bib.bib19））或MRAC-RL（Guha and Annaswamy，2021（https://arxiv.org/html/2606.11474#bib.bib20））。这些方法将混合控制作为在变化环境中部署RL的一种实用架构。相比之下，我们的重点不是设计新的备用控制器，而是学习决定何时应该信任RL策略的切换监督器。

#### 强化学习中的OOD与异常检测。

检测OOD观测对于可靠的RL部署至关重要，因为不熟悉的状态可能导致学习策略选择低性能或不安全的动作。早期工作利用不确定性估计和策略熵在深度RL中制定了OOD分类（Sedlmeier等人，2020a（https://arxiv.org/html/2606.11474#bib.bib17），b（https://arxiv.org/html/2606.11474#bib.bib16））。其他工作研究OOD动力学检测，其目标是识别相对于训练分布的环境动力学变化（Danesh and Fern，2021（https://arxiv.org/html/2606.11474#bib.bib13））。概率动力学模型和bootstrap集成也被用于检测RL代理的OOD情况（Haider等人，2023（https://arxiv.org/html/2606.11474#bib.bib14））。最近，OOD检测在RL中通过包含时间相关异常和基于时间序列检测方法的基准进行了重新审视（Nasvytis等人，2024（https://arxiv.org/html/2606.11474#bib.bib15））。这些工作侧重于检测异常状态或动力学。我们的工作将OOD检测用作可操作的控制信号：潜在距离确定混合控制器中的二元切换系数β_t。

参见图注 图1：VAE引导的ES/RL切换设置。
参见图注 图2：空间磁体移动对束流剖面的影响。移动磁体产生非平滑的包络和斜率行为，并伴有大幅度偏离。z坐标单位为米；其他值已归一化。
#### 马氏距离与潜在空间异常检测。

马氏距离被广泛用于衡量特征向量是否远离参考分布。在监督深度学习中，类条件高斯特征模型已用于通过马氏置信度分数检测OOD和对抗样本（Lee等人，2018（https://arxiv.org/html/2606.11474#bib.bib10））。在强化学习中，MDX将马氏距离检测扩展到RL，通过从策略网络表示中估计类条件特征分布，并检测随机、对抗和OOD状态异常值（Zhang等人，2024（https://arxiv.org/html/2606.11474#bib.bib9））。我们的方法建立在这种基于距离的视角上，但在表示和用途上有所不同。我们在物理系统观测的学习潜在表示中计算马氏距离，而不是在策略网络的动作类特征中，并将得到的距离用于选择RL和ES控制器之间的切换。

## 3 问题表述

### 3.1 粒子加速器调谐问题

粒子加速器调谐具有挑战性，因为束流动力学是非线性的、强耦合的，并且对磁铁设置和入射束流条件都很敏感。一个四极磁铁的变化可以影响下游的束流包络，而差的设置可能产生大的包络偏离、非平滑的束流演化和束流损失。因此，控制器必须调谐许多耦合的致动器，同时保持紧凑、平滑且对齐良好的束流。

我们基于Kapchinskij–Vladimirskij（KV）包络模型（Kapchinskij and Vladimirskij，1959（https://arxiv.org/html/2606.11474#bib.bib28））在粒子加速器调谐问题中评估所提出的监督器。该系统代表直线加速器的低能束流传输段。束流状态由水平和垂直包络半径X(z,t)和Y(z,t)以及沿束线坐标z的斜率X'(z,t)和Y'(z,t)描述。控制器作用于四极磁铁强度。

在每个控制步骤，观测是采样的束流剖面向量 o_t = [X(z,t), Y(z,t), X'(z,t), Y'(z,t)]，控制输入是22个四极磁铁强度的设定点向量 Q_t = [Q_1(t), ..., Q_22(t)]^T ∈ R^22。

RL控制器使用深度确定性策略梯度（DDPG）（Lillicrap等人，2020（https://arxiv.org/html/2606.11474#bib.bib29））在有限数量的束线配置和运行状态的仿真中进行训练。训练期间，束流初始条件在回合之间随机化，以便策略观察到不同的初始束流剖面。演员网络被训练以最大化奖励，该奖励鼓励紧凑的束流包络、平滑的束流演化和终端对齐。测试时，训练好的演员网络被冻结以防止策略漂移。额外的DDPG训练细节和奖励定义见附录A（https://arxiv.org/html/2606.11474#A1）。

### 3.2 考虑OOD的测试时RL-ES切换

我们将训练好的RL演员与有界极值搜索（ES）相结合，因为两个控制器具有互补优势。当观测到的束流剖面接近DDPG训练期间遇到的分布时，RL演员提供快速、协调的磁铁命令。ES在未知和时变动力学下提供鲁棒性，因为它优化测量的标量目标而不需要加速器的解析模型，同时保持参数更新有界（Scheinker等人，2013（https://arxiv.org/html/2606.11474#bib.bib2）；Scheinker and Scheinker，2016（https://arxiv.org/html/2606.11474#bib.bib26））。它也被证明适用于粒子加速器束流损失最小化（Scheinker等人，2021（https://arxiv.org/html/2606.11474#bib.bib27））。然而，ES是基于局部反馈的优化器：在高维调谐问题中，例如这里考虑的22维四极磁铁设置，收敛可能很慢，搜索可能陷入次优的局部区域。因此，单独使用ES可能不必要地缓慢，而单独使用RL在OOD条件下可能不可靠。

我们以两种方式使用RL。首先，当束流剖面被检测为分布内时，RL演员直接提供控制动作。其次，ES控制器从RL推荐的磁铁设置进行热启动，减少了从任意磁铁设置开始局部搜索的瞬态过程。ES使用与RL奖励相同的束流质量目标，并为四极磁铁强度产生动作u_{ES,t}。

混合控制器通过二元开关选择RL和ES动作：

u_t = β_t u_{RL,t} + (1-β_t) u_{ES,t}, β_t ∈ {0, 1}  (1)

当β_t=1时，应用RL动作。当β_t=0时，应用ES动作。因此，β_t在此工作中不是连续的权威权重；它是两个控制器之间的测试时选择器。

我们使用潜在OOD证据来选择β_t。如图1（https://arxiv.org/html/2606.11474#S2.F1）所示，在测试时部署期间，监督器观测当前束流剖面，将其嵌入学习的潜在空间，计算其与训练分布潜在模型的马氏距离，并使用此分数选择RL控制器或ES控制器。

## 4 基于马氏距离引导的潜在监督器

参见图注 图3：第一行显示了训练好的VAE的3D潜在空间中8192个嵌入式测试束流包络的位置，以及来自时变晶格的128个束流包络的嵌入，其中一个磁铁移动了1米。点根据重建误差、磁铁移动距离以及每个点与VAE学习的潜在分布（建模为N(0, I_{3×3})）的马氏距离进行着色。接下来三行显示了3D视图的正交2D投影。

### 4.1 学习束流剖面的潜在模型

基于VAE的切换监督器被训练以学习分布内束流剖面观测的紧凑表示。为了构建VAE数据集，我们从专家调谐的四极磁铁设置开始，该设置产生稳定的束流剖面。然后，我们通过在此参考四极磁铁设置周围应用随机扰动并求解KV包络模型来生成束流剖面数据。这将产生一个包含700,000个束流剖面的数据集，该数据集被分为680,000个训练、10,000个验证和10,000个测试剖面。VAE架构、训练细节和潜在维度比较见附录B（https://arxiv.org/html/2606.11474#A2）。

OOD检测器以束流剖面观测作为输入。由于束流剖面沿纵向坐标z采样，输入有四个通道，对应于X(z,

马氏距离引导的时变系统混合ES-DRL控制潜在OOD检测

相似文章

超越惩罚机制：基于扩散模型的离线强化学习分布外检测与选择性正则化

面向目标无关的偏微分方程联合嵌入预测控制

DVAO：多奖励强化学习中的动态方差自适应优势优化

如何在无潜在特征访问的封闭LLM API上进行OOD检测？

时序距离JEPA：面向潜在世界模型预测控制的规划感知表示学习

提交意见反馈