流体控制的离线强化学习:基于数据的多观测策略提取

arXiv cs.LG 论文

摘要

本文提出了一种用于主动流动控制的新型离线强化学习框架,采用带有点注意力层的传感器位置条件架构来处理变化的传感器配置,从而无需昂贵的在线交互即可实现数据驱动的策略提取。

arXiv:2606.31025v1 Announce Type: new 摘要:主动流动控制是工程中的一个基础应用。深度强化学习的最新进展已在该领域取得进展。然而,传统的在线强化学习方法需要与高保真环境进行大量的实时交互,同时每次传感器配置变化都需要重新训练整个策略。所有这些因素导致在现实应用中计算成本过高。在这项工作中,我们提出了一个新的离线强化学习框架,通过数据驱动的策略提取来解决这两个挑战。我们开发了一种传感器位置条件架构,使单个策略网络能够无缝适应多种传感器布置。该位置条件方法通过点注意力层融入空间关系建模,确保对不同传感器放置的泛化能力。我们在两个代表性问题上演示了该框架:缓解Kuramoto-Sivashinsky方程中的混沌性以及由Navier-Stokes方程控制的翼型流动控制。结果表明,从数据集中提取策略为传感器布局优化提供了前所未有的灵活性。该方法朝着自适应、智能的流动控制系统迈出了重要一步。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:33

# 流体控制的离线强化学习:基于数据的多观测策略提取
来源:https://arxiv.org/html/2606.31025
Luning Sun、Xin-Yang Liu、Xiantao Fan、Timo Bremer、Ben Zhu、Jian-Xun Wang
圣母大学航空航天与机械工程系,圣母大学,印第安纳州
劳伦斯利弗莫尔国家实验室,圣母大学,利弗莫尔,加利福尼亚州
西布利机械与航空航天工程学院,康奈尔大学,伊萨卡,纽约州,美国

###### 摘要

主动流动控制是工程领域的一项基础应用。深度强化学习的最新进展已在该领域取得进展。然而,经典的在线强化学习方法需要与高保真环境进行大量的实时交互,而每次传感器配置变化都需要对整个策略进行重新训练。所有这些因素都导致在实际应用中计算成本过高。在这项工作中,我们提出了一种新颖的离线强化学习框架,通过数据驱动的策略提取同时解决了这两个挑战。我们开发了一种传感器位置条件化的架构,使单个策略网络能够无缝适应多种传感器布局。这种位置条件化方法通过点注意力层融入空间关系建模,确保了对不同传感器位置部署的泛化能力。我们在两个代表性问题上展示了该框架:缓解Kuramoto-Sivashinsky方程中的混沌性以及基于Navier-Stokes方程的翼型流动控制。结果表明,从数据集中提取策略为传感器布局优化提供了前所未有的灵活性。该方法向着自适应、智能流动控制系统迈出了重要一步。

###### 关键词:

主动流动控制,离线强化学习,传感器布局,策略提取,集成方法

††期刊:Elsevier

## 1 引言

流动控制是广泛工程和科学应用中普遍存在的关键挑战,包括空气动力学[19,32,40,51,59](https://arxiv.org/html/2606.31025#bib.bib18,49,50,51,52)、风能[2,44,56,13,11,10](https://arxiv.org/html/2606.31025#bib.bib24,25,53,54,55,56)、减阻[17,16,46,55,21,47](https://arxiv.org/html/2606.31025#bib.bib19,48,57,58,59,60)、推进系统降噪[33](https://arxiv.org/html/2606.31025#bib.bib61)、化工过程中的增强混合[37,50](https://arxiv.org/html/2606.31025#bib.bib21,62)、流固耦合[38,7,57](https://arxiv.org/html/2606.31025#bib.bib22,63,64)以及软体机器人[42,49](https://arxiv.org/html/2606.31025#bib.bib23,65)。其经济影响巨大,仅减阻一项每年就可在交通运输领域节省数十亿美元的燃料成本。

1982年,Liepmann等人首次成功演示了层流不稳定性波的消除[29](https://arxiv.org/html/2606.31025#bib.bib14)。Bushnell等人的综合综述论文[5](https://arxiv.org/html/2606.31025#bib.bib15)展示了多种湍流控制方法,并强调了这些方法对影响流动结构的各种输入的高度敏感性。Joshi等人[24](https://arxiv.org/html/2606.31025#bib.bib17)和Bewley等人[4](https://arxiv.org/html/2606.31025#bib.bib16)是将现代控制理论应用于流体动力学的先驱,他们开发了LQG和鲁棒H∞\mathcal{H}_{\infty}控制框架。然而,线性假设限制了这些方法在高度非线性的转捩或湍流中的适用性。这些经典方法面临根本性的计算障碍:需要昂贵的O(n³)逆运算的矩阵操作、需要数小时或数天的优化时间,无法应用于实时场景,以及在超过20-30个传感器位置时变得难以处理的组合传感器布局问题。

近年来,研究人员还使用基于深度强化学习的方法在流体控制和最优传感器布局方面进行了许多相关研究。它已成为通过与环境交互学习最优策略来解决复杂决策问题的强大工具。Paris等人[39](https://arxiv.org/html/2606.31025#bib.bib4)提出了一种用于最优传感器布局的PPO算法变体。他们利用稀疏性促进损失,在给定稀疏传感器约束下从预训练策略中学习。Watanabe等人[53](https://arxiv.org/html/2606.31025#bib.bib7)研究了压力传感器布局对基于强化学习的实验性深度失速控制的影响。然而,传统的强化学习方法在训练过程中通常需要与环境进行大量的在线交互,这在机器人、医疗和工业过程等实际应用中可能不切实际、昂贵甚至不安全。计算成本的扩展性很差:在线DRL通常需要104−10610^4-10^6次环境交互,转化为数周或数月的实时流体实验,使得实际部署成本高昂,难以承受。这些限制极大地限制了传统RL方法的广泛适用性和可扩展性。降低在线DRL成本的一个有希望的方向是学习快速代理模型。一种常见做法是与低保真度模拟环境交互以简化问题,从而避免昂贵的高保真度环境[18,36,22,8](https://arxiv.org/html/2606.31025#bib.bib26,27,28,29)。另一种有希望的方法是构建用于DRL训练的神经网络代理。Liu等人[30](https://arxiv.org/html/2606.31025#bib.bib30)开发了一种物理信息代理模型,将PDE约束纳入基于模型的RL训练中。最近的工作还利用带可学习项的可微求解器开发了更先进的代理模型[43,31,12](https://arxiv.org/html/2606.31025#bib.bib32,33,34),并将其应用于控制任务[48](https://arxiv.org/html/2606.31025#bib.bib31)。Bae等人[3](https://arxiv.org/html/2606.31025#bib.bib47)还提出利用多智能体RL将计算成本降低几个数量级。

或者,离线强化学习提供了一种有前景的解决方案,它可以直接从预先收集的数据集中学习有效的控制策略,从而消除了在线环境交互的需要[28,41,27](https://arxiv.org/html/2606.31025#bib.bib35,36,37)。通过利用从专家演示、先前训练运行或基于启发式的策略收集的历史数据,离线RL促进了更高效、更安全的策略开发,降低了与实时环境交互相关的成本和风险。现代离线RL算法通过保守估计方法[26,54](https://arxiv.org/html/2606.31025#bib.bib38,39)、行为克隆[15](https://arxiv.org/html/2606.31025#bib.bib40)和不确定性量化[1](https://arxiv.org/html/2606.31025#bib.bib1)解决了分布偏移等关键挑战。这使得离线RL在敏感、资源受限或高风险的场景中尤其有价值。离线RL在机器人操作任务中取得了成功,从静态数据集中实现了超过90%的成功率[45,34](https://arxiv.org/html/2606.31025#bib.bib41,42),在在线实验受伦理约束的医疗保健[20](https://arxiv.org/html/2606.31025#bib.bib43)以及安全关键约束禁止广泛在线探索的自动驾驶[25](https://arxiv.org/html/2606.31025#bib.bib44)等领域也取得了成功。然而,这一方向在科学机器学习领域尚未得到充分探索。最相关的工作是Char等人[6](https://arxiv.org/html/2606.31025#bib.bib46),他们使用DIII-D聚变装置的历史数据将离线基于模型的RL应用于托卡马克控制。

在流体控制任务中,关于依赖通过固定传感器配置获得的局部观测,仍然存在一个特别的挑战。在实际部署中,由于实验约束、硬件限制或新的目标,传感器位置可能需要改变。然而,大多数策略都是在假设特定观测设置的情况下训练的,这使得它们对传感器布局的任何修改都高度敏感。即使是传感器配置的微小变化,通常也需要重新训练策略,这可能涉及进一步的数据收集或在线交互。这造成了一个关键瓶颈:每次传感器配置变化都需要单独的O(n²)策略优化,使得自适应传感在实时应用中计算上难以处理。

在这项工作中,我们探索了离线RL的潜力——特别是使用SACN[26](https://arxiv.org/html/2606.31025#bib.bib38)算法——从单个数据集中提取多种不同的策略。我们证明,一旦收集了数据,无论是来自人类演示还是学习行为,都可以重新用于训练不同观测设置下的策略,例如不同的传感器布局。这种方法消除了与环境交互的需要,并能够使用同一数据集跨一系列配置灵活调整控制策略。

然而,针对传感器位置的每一种微小变化训练一个单独的策略仍然是低效且耗时的。计算复杂度随传感器配置数量线性增长,产生O(k×n²)O(k \times n^2)的缩放问题,其中k表示不同传感配置的数量。为了解决这个问题,我们提出了一种传感器位置条件化的策略网络以及一种训练策略,使单个网络能够跨多种传感器配置进行泛化。我们的方法利用点注意力架构来捕获传感器之间的空间关系,实现排列不变性,并能够在任意传感器布局上进行泛化。这将计算负担从O(k×n²)O(k \times n^2)降低到O(n²)O(n^2),同时在所有配置中保持可比较的性能。这显著提高了离线RL的实用性,允许在部署时无缝适应传感器变化,而无需额外的重新训练或数据收集。本文组织如下:第2.1节至第2.4节阐述问题设置并回顾相关RL背景。第2.5节详细阐述了我们在传感器感知策略网络方面的贡献。第2.6节介绍了当前工作中的流体动力学案例。我们在第3节分析了我们提出的框架的性能。第4节讨论了传感器优化,第5节总结全文。

## 2 方法

参见图注。图1:整体框架。
数据集:离线生成各种π\pidata,包含完整状态s,s′\textbf{s},\textbf{s}',动作a\mathbf{a}和奖励rr。
训练:使用PCπ\pi-net进行离线训练:演员网络以观测作为输入。演员网络策略权重通过超网络风格的点-变换器层,根据传感器位置进行参数化。评论家网络是一个集成,配合保守目标minjQφj′\min_j Q_{\phi'_{j}}以缓解分布偏移问题。
部署:在任意传感器布局{x}i=1ns\{\textbf{x}\}_{i=1}^{n_s}下部署,无需重新训练。

### 2.1 问题公式化

为流体系统学习控制策略以实现诸如减阻等目标,长期以来一直是一项具有挑战性的任务。虽然强化学习提供了一种有前景的方法,但它通常依赖于与环境的交互,这可能成本高昂、耗时甚至危险。例如,让一架飞机通过真实世界的试错来学习飞行,或者让一辆自动驾驶汽车通过直接在公共道路上操作来学习,都可能导致灾难性后果。

相比之下,人类操作员(例如,来自有人驾驶的飞机或道路车辆)会持续生成大量数据,这激发了使用预先收集的数据进行策略学习的动机。这种范式,称为离线强化学习,旨在完全从离线数据集中学习有效的策略,而无需在训练期间进行额外的环境交互。

这项工作的重点是开发和评估用于流体动力学应用的离线RL方法。由于流体环境通常由偏微分方程控制,我们设计了两个基于控制流体动力学方程的仿真环境,作为我们框架的测试平台。

虽然从数据中学习策略是有价值的,但当新的传感器配置需要重新训练时,这会变得低效。为了解决这个限制,我们提出了一种传感器位置条件化的策略网络,它可以表示对应于不同传感器布局的多种策略。此外,我们引入了一种训练策略,使网络能够学习跨一系列观测配置的泛化行为。这有效地定义了一个多观测框架,并使网络能够学习对传感器布局变化鲁棒的控制策略。整体框架如图1所示。

### 2.2 强化学习概述

强化学习是一个框架,其中智能体与环境E\mathcal{E}交互,学习一个将状态s∈S\mathbf{s} \in \mathcal{S}映射到动作a∈A\mathbf{a} \in \mathcal{A}的策略π(a|s)\pi(\mathbf{a}|\mathbf{s}),旨在最大化累积奖励。初始时,环境状态s0\mathbf{s}_{0}从初始状态分布d0(⋅)d_{0}(\cdot)中采样,即s0∼d0(⋅)\mathbf{s}_{0} \sim d_{0}(\cdot)。在随后的每个控制步tt,智能体观测当前状态st\mathbf{s}_{t},根据其策略π(⋅|st)\pi(\cdot|\mathbf{s}_{t})选择一个动作at\mathbf{a}_{t},接收一个奖励

相似文章

Reversal Q-Learning

arXiv cs.LG

本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。

QPILOTS: 面向流策略的高效测试时Q引导

arXiv cs.LG

QPILOTS是一种方法,通过使用从噪声中间状态投影的评论家梯度,在推理时引导流策略,在离线到在线强化学习基准上实现了最先进的性能,并在不修改基础策略的情况下改进了预训练的VLA模型。