利用学习到的机载风估计的模拟大气湍流中小型四旋翼的风感知强化学习控制

arXiv cs.LG 2026/07/03 04:00 论文

摘要

本文提出了一种两阶段学习流水线，使用注意力增强的门控循环网络从机载运动学中估计风速，然后利用该估计值在强化学习控制器中提升四旋翼在湍流风下的轨迹跟踪性能，相比基线将跟踪误差降低了48%。

arXiv:2607.01528v1 Announce Type: new Abstract: 小型多旋翼飞行器越来越多地在大气边界层中执行任务，其中与飞行器空速相当的湍流风会降低轨迹跟踪性能，并可能使传统反馈控制失效。本文展示了一个两阶段学习流水线：首先从机载运动学和动力学中估计局部风，然后在强化学习（RL）飞行控制器中利用该估计值。风估计器是一个注意力增强的门控循环网络，在数千次模拟飞行中训练，这些飞行经历具有幂律剪切和转向的冯·卡门湍流。在未见过的风况下，它恢复水平风向量的每飞行均方根误差为0.40 m/s，方向误差为3.2度，精度接近未解析湍流所施加的下限，并在恒定风参考下对垂直上升剖面的泛化技能得分为0.861。一个接收固定估计器输出的近端策略优化控制器，在平均风速4 m/s至12 m/s范围内，相比不感知风的比例微分基线，将水平轨迹跟踪误差降低了48%，在100%的评估回合中胜出。一项三路消融实验将此改进分解为运动学分量（无需风信息即可获得）和风感知分量；风感知份额随风速增加，从微风中的较小比例到强风中约占总收益的一半，这与空气阻力的二次缩放一致。在13 m/s至15 m/s的分布外风中，控制器性能优雅下降，而基线则灾难性地失效。

查看原文

查看缓存全文

缓存时间: 2026/07/03 05:41

# 风感知强化学习控制：利用学习到的机载风估计在模拟大气湍流中控制小型四旋翼
来源：https://arxiv.org/html/2607.01528
Abdullah Al Tasim¹¹¹ 研究生助理，航空航天与机械工程学院，与 Wei Sun²²² 通讯作者，航空航天与机械工程学院；wsun@ou\.edu

###### 摘要

小型多旋翼飞行器越来越多地在大气边界层中执行任务，在那里，与飞行器空速相当的湍流风会降低轨迹跟踪精度，并可能使传统反馈控制失效。本文阐述了一个两阶段学习流程：首先从机载运动学和动力学估计局部风，然后利用该估计值于强化学习（RL）飞行控制器中。风估计器是一个注意力增强的门控循环网络，在数千次通过含幂律剪切和偏转的冯·卡门湍流的模拟飞行上进行训练，能够恢复水平风矢量，对未见过的风况实现每飞行均方根误差0.40 m s⁻¹和方向误差3.2°，这一精度接近由未解析湍流所设定的下限，并且能够在垂直上升剖面中泛化，相对恒定风参考的技能得分为0.861。采用冻结估计器输出的近端策略优化控制器，在平均风速4 m s⁻¹至12 m s⁻¹的条件下，相比无风感知的比例-微分基线，将水平轨迹跟踪误差降低了48%，且在100%的评估回合中胜出。一个三路消融实验将该改进分解为运动学成分（无需风信息即可获得）和风感知成分；风感知的份额随风速增加，从微风中的很小比例到强风中约占总体收益的一半，这与空气阻力的二次方标度一致。在13 m s⁻¹至15 m s⁻¹的分布外风速下，学习控制器优雅地退化，而基线则彻底失败。

## 符号说明

U\_mean = 参考平均风速，在z\_ref处，m s⁻¹  
z\_ref = 风剖面的参考高度，m  
α = 幂律风切指数  
w\_N, w\_E = 平均风的北向和东向分量，m s⁻¹  
ŵ\_N, ŵ\_E = 估计的平均风北向和东向分量，m s⁻¹  
τ = 指数滑动平均滤波器时间常数，s  
SS = 相对于恒定风参考的技能得分  
RMSE = 均方根误差  
MAE = 平均绝对误差  

**缩略语**  
GRU = 门控循环单元  
MAE = 平均绝对误差  
OOD = 分布外  
PD = 比例-微分  
PPO = 近端策略优化  
RL = 强化学习  
RMSE = 均方根误差  
sUAS = 小型无人飞机系统

## 1 引言

小型无人飞机系统（sUAS）通常在大气边界层（ABL）内运行，其中平均风、垂直剪切和湍流阵风经常达到飞行器自身空速的相当大比例，有时甚至超过它。对于一架质量在几千克量级的多旋翼飞行器，气动干扰力大致与相对风速的平方成正比，因此控制负担随风速急剧增加：在3 m s⁻¹时可忽略的扰动，在12 m s⁻¹时变得主导。传统的级联比例-微分（PD）及相关的基于模型的控制器将风纯粹视为未测量的扰动，只在已经产生跟踪误差后才被动地加以抑制。随着风的增强，这种被动姿态会导致位置误差增大，超出作动裕度后则发散。

一个有吸引力的替代方案是让控制器直接了解风的信息。专用的气流传感器会增加质量、成本和校准负担，小型平台很少能承受，但飞行器本身就是一个气动体：指令推力、测量加速度和观测速度之间的不匹配携带着相对风的信息。这激发了一个两阶段架构，其中（i）学习型估计器从机载运动学和动力学推断环境风矢量，以及（ii）学习型飞行控制器将该估计值作为其观测的一部分，从而实现预测性而非纯粹被动性的扰动处理。

本文在六自由度仿真中开发并评估了这样一个流程，仿真对象是一架2.59 kg的四旋翼，飞行通过含有幂律垂直剪切和方向偏转的冯·卡门湍流、基于物理的传感器噪声以及水平和垂直参考轨迹库。贡献有三方面。首先，它表明一个注意力增强的门控循环单元（GRU）网络，在数千次模拟飞行上训练后，对未见过的风况估计水平风矢量的每飞行矢量均方根误差（RMSE）为0.40 m s⁻¹，方向平均绝对误差（MAE）为3.2°，精度接近由未解析湍流波动设定的下限，并且同一架构可推广至垂直上升-下降飞行，相对恒定风参考具有强大的技能得分。其次，它表明一个条件于冻结估计器输出的近端策略优化（PPO）控制器，相对于无风感知的PD基线，将水平跟踪RMSE降低48%，垂直工况下水平轴RMSE降低39.5%，在每个匹配的评估回合中均胜出，并且一个三路消融实验将该改进清晰地分解为运动学学习成分和风感知成分。第三，它表明风感知的价值是随工况而变化的，而非恒定。在水平工况中，风感知占总改进的份额随平均风速增加而增加，在U=8 m s⁻¹附近达到中期峰值，然后在最强风时回落；在垂直工况中，该份额随风速增加，从微风时的接近零上升到强风时约占总体收益的一半。学习控制器在分布外风速下也能优雅地退化，而基线则彻底失败。这些结果共同说明，在最具挑战性的风条件下，学习型风感知是一种高杠杆、无传感器的增强手段，对于小型无人机自主性至关重要。

本文的其余部分组织如下。第2节（https://arxiv.org/html/2607.01528#S2）回顾了多旋翼风估计和学习型飞行控制的相关工作。第3节（https://arxiv.org/html/2607.01528#S3）描述了仿真环境、湍流模型和轨迹库。第4节（https://arxiv.org/html/2607.01528#S4）介绍了风估计阶段及其在水平和垂直工况下的评估。第5节（https://arxiv.org/html/2607.01528#S5）描述了风感知RL控制器、基线和消融设计。第6节（https://arxiv.org/html/2607.01528#S6）报告了跟踪结果、改进分解和分布外探测。第7节（https://arxiv.org/html/2607.01528#S7）讨论了机制和局限性，第8节（https://arxiv.org/html/2607.01528#S8）进行总结。

## 2 文献综述

一架悬停或缓慢平移的多旋翼必须相对于风倾斜以保持位置，因此其姿态和电机指令携带风的信息。基于模型的方法将飞行器视为标定的阻力体，并在卡尔曼滤波框架内反演出参数化气动模型。[Neumann2015] 的倾角法引入了这一概念，将四旋翼的俯仰和滚转角与风矢量关联起来，经过风洞标定后实现了风速RMSE约0.6 m s⁻¹，而[Gonzalez2019] 比较了一系列运动学、动态质点和刚体模型，发现更丰富的刚体模型能产生最准确的速度估计。这类平台已被部署为大气现场试验中的风传感器，例如[Palomaki2017] 通过悬停的多旋翼恢复了低层大气风廓线。相关工作通过专用气流传感增强飞行器，例如[Yeo2018] 使用的机载流量传感器用于多旋翼在风中的俯仰控制；本文则仅从现有状态和控制信号推断风。

这些基于模型的方法具有透明度优势，但在气动模型指定错误、激烈机动以及准稳态阻力假设失效的强风条件下会退化。学习型估计器通过直接从飞行动力学回归风来放松这些假设。其方法涵盖从飞行数据的最近邻回归[Wang2019] 到能够精确捕捉风效应以支持控制的深度残空气动力学表示，最突出的是 Neural-Fly 系列工作，其中学习到的风依赖气动残差基函数使得能够快速在线适应[OConnell2022]。本文的不同之处在于明确地将风矢量本身重建为可解释的中间量，这除了用于控制外，还可服务于映射和预报应用，并量化估计技能相对于由未解析湍流所设下限的表现。

深度强化学习已经产生了在跟踪精度和鲁棒性上匹配或超越经典级联的四旋翼控制器，始于证明神经策略能够从任意初始状态稳定并恢复四旋翼的研究[Hwangbo2017]，扩展到能够规划近时间最优竞赛轨迹的策略[Song2021]，以及在无人机竞速中超越专业人类飞行员[Kaufmann2023]。近期的证据表明，在未建模效应下，学习型控制相对于经典最优控制的优势最为显著，此时策略能发现比基于分解的控制器更鲁棒的响应[Song2023]；风正是这样一种效应。策略梯度方法，尤其是 PPO[Schulman2017] 及其在 Stable-Baselines3[Raffin2021] 等库中的实现，是此类文献的主力。越来越多的工作致力于扰动下的飞行：[Huang2023] 在模拟中训练了一个前馈-反馈策略，用于在不稳定风场中跟踪激进轨迹，并在部署时通过自适应扰动估计器进行增强。大多数此类研究将风视为通过域随机化[Tobin2017] 克服的未建模噪声，或视为要抑制的集总力扰动。相比之下，很少有研究将部署策略条件于显式估计的风状态，然后量化该感知通道对最终性能的贡献程度，而非仅归因于策略的通用运动学能力；这种归因问题是本研究的核心重点。

经典的自适应控制和扰动观测器控制通过在线估计集总扰动来增强标称控制器，L₁ 自适应控制是一个代表性框架，提供快速适应和有界瞬态[Hovakimyan2010]。更接近多旋翼场景的，[Bisheban2021] 将几何控制器与神经网络扰动估计相结合，用于在风场中跟踪轨迹。这类方法估计的是*力*扰动而非风*速度*，其能力通常限于缓慢、准恒定的扰动分量。结合学习型气动模型与自适应控制的混合方法模糊了这一界限，包括学习型残差力模型[OConnell2022] 以及 NeuroBEM[Bauersfeld2021] 等混合桨叶单元模型。本文用作经典基线的平坦度基控制器本身就是一个标准的高性能四旋翼比较器[Sun2022]。本文所引入的方法论——在相同重播物理条件下比较无风感知经典基线、无风感知学习策略和风感知学习策略——为在任何此类扰动感知架构中归因性能提供了一个通用模板，而与如何获取扰动信息无关。

## 3 仿真环境

所有实验均在一个自定义的六自由度四旋翼模拟器中进行，该模拟器集成了刚体动力学、谱湍流场、标定的传感器模型和轨迹跟踪控制器。水平与垂直训练数据集来自共享相同飞行器动力学、传感器模型、风模型和控制器的仿真，仅在轨迹库和飞行高度采样方式上有所不同；这种共享物理保证了两个估计器及两个控制工况在共同基础上进行比较。

### 3.1 飞行器与动力学

模拟平台是一架2.59 kg的四旋翼，惯性张量为对角阵J = diag(0.078, 0.082, 0.14) kg m²，臂长0.25 m。每个旋翼通过系数k_T = 1.5×10⁻⁵和k_M = 0.055 k_T产生推力和反扭矩，四个电机转速通过固定混合矩阵映射到总推力和机体力矩；电机动力学建模为一阶滞后，时间常数0.05 s，转速限制在[0, 1200] rad s⁻¹，每轴总推力限制在悬停值的0.3到2.5倍。平移气动阻力建模为机体相对风速的二次方力，水平面有效阻力系数C_dA_xy = 0.038 m²，垂直轴C_dA_z = 0.10 m²，空气密度ρ = 1.225 kg m⁻³，因此干扰力与相对风速的平方成正比。刚体动力学以固定步长dt = 2 ms积分；平坦度基控制器（如下所述）以100 Hz运行（dt_ctrl = 10 ms），所有信号以10 Hz记录（dt_log = 0.10 s），这设定了估计器输入序列的时间分辨率。

数据生成期间使用的参考控制器是一个平坦度基级联控制器，包含纯PD外环位置和内环姿态回路，位置增益K_p = (5, 5, 7)，K_d = (3.5, 3.5, 4.5)，姿态增益K_R = diag(10, 10, 5)且K_ω = diag(3.5, 3.5, 2)，指令倾斜限幅35°，位置误差饱和(12, 12, 15) m。这个相同的无风感知PD控制器作为第5节（https://arxiv.org/html/2607.01528#S5）和第6节（https://arxiv.org/html/2607.01528#S6）中与强化学习策略比较的经典基线。

### 3.2 大气风与湍流模型

环境风是一个确定性平均剖面和一个空间相关的湍流波动的总和。平均水平风遵循高度的幂律：

\[
\bar{U}(z) = U_{\mathrm{mean}} \left( \frac{\max(z, z_{\mathrm{ref}})}{z_{\mathrm{ref}}} \right)^{\alpha},
\tag{1}
\]

参考高度z_ref = 10 m，参考平均风速U_mean在4到12 m s⁻¹之间取值。幂律指数α在0.1到0.6之间变化，模拟从光滑表面（α = 0.1）到粗糙城市冠层（α = 0.6）的大气稳定性条件。平均风方向随高度持续偏转（埃克曼螺旋效应），每100 m高度变化在5°到25°之间，从而产生非均匀的垂直风切变。

利用学习到的机载风估计的模拟大气湍流中小型四旋翼的风感知强化学习控制

相似文章

UniWind：面向统一日前风电预测的物理信息状态路由方法

学习何时行动：通过运行时保证的通信高效强化学习

DiffAero：一个用于高效四旋翼策略学习的GPU加速可微仿真框架

大气再入期间航天器姿态控制的深度强化学习

流体控制的离线强化学习：基于数据的多观测策略提取

提交意见反馈