HADT: 一种用于自主地球观测卫星集群的异构多智能体差分Transformer

arXiv cs.AI 论文

摘要

本文提出HADT,一种基于Transformer的架构,用于异构卫星集群在执行地球观测任务时的自主资源管理,采用差分注意力和关系化令牌化机制。实验表明,该方法相较于基线有显著改进,并对不同规模的卫星集群展现出强适应性和迁移能力。

arXiv:2605.31023v1 公告类型:新 摘要:本文针对执行地球观测(EO)任务(包括光学和合成孔径雷达(SAR)卫星)的异构卫星集群中的自主资源管理问题展开研究。在自主运行模式下,卫星配备智能能力,能够根据最新条件进行实时决策,同时最大限度地减少与地面操作员的交互。传统的调度方法通常依赖数学模型来表示卫星任务和资源管理,然后通过优化算法求解。然而,当底层模型不可用、过于复杂或因空间任务环境固有的动态变化和不确定性而不准确时,此类解决方案的效果会降低。一个可行的替代方案是将该问题重新表述为序列决策过程,并应用无模型强化学习技术来实现自适应和实时的资源管理。为此,我们提出了一种基于Transformer的新型架构,专为异构卫星集群的自主EO任务而设计,采用关系化观测-动作令牌化和差分注意力机制。我们的实验结果表明,与现有基线相比,性能有显著提升。此外,所提出的架构在对不同数量卫星集群的适应性和可迁移性方面表现出色。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:26

# HADT: 一种面向自主地球观测卫星集群的异构多智能体差分变换器
来源: https://arxiv.org/html/2605.31023 11institutetext:School of Computer Science and Information Technology, Adelaide University, Adelaide, 5095, SA, Australia\.11email:\{mohamad\.hady; muhammadanwar\.masum; dhika\.pratama; jimmy\.cao; ryszard\.kowalczyk\}@adelaide\.edu\.au22institutetext:School of Electrical Engineering, Computing and Mathematical Sciences \(EECMS\), Curtin University, Kent St, Bentley, 6102, WA, Australia\.22email:siyi\.hu@curtin\.edu\.au33institutetext:Systems Research Institute, Polish Academy of Sciences, Warsaw, Poland\.Muhammad Anwar MasumSiyi HuMahardhika PratamaZehong CaoRyszard Kowalczyk ###### 摘要 本文研究了执行地球观测(EO)任务(包括光学卫星和合成孔径雷达(SAR)卫星)的异构卫星集群中的自主资源管理问题。在自主运行模式下,卫星具备智能能力,能够基于最新情况做出实时决策,同时最大程度减少与地面操作员的交互。传统调度方法通常依赖数学模型来表示卫星任务和资源管理,然后通过优化算法求解。然而,当底层模型不可用、过于复杂或因空间任务环境中的动态变化和不确定性导致不准确时,这类解决方案的有效性会下降。一个有前景的替代方案是将问题重新表述为序列决策过程,并应用无模型强化学习技术来实现自适应和实时的资源管理。为此,我们提出了一种新颖的基于变换器的架构,专门针对异构卫星集群自主EO任务设计,采用了关系性观测-行动令牌化和差分注意力机制。我们的实验结果表明,与现有基线相比,性能有显著提升。此外,所提出的架构在不同数量的卫星集群下表现出强大的适应性和可迁移性。111本工作已被ECML-PKDD’26录用。

## 1 引言

由于卫星任务的动态性、不确定性和资源受限特性,自主协调和管理多颗低地球轨道(LEO)卫星仍然是一个挑战[wang2020agile, chen2019mixedILP, stephenson2023optimal, pan2023dense]。与预先规划的任务操作不同,自主EO任务要求每颗卫星在动态条件和资源限制下做出实时决策,同时保持整个星座的协调行为[li2024mission, yang2024objective]。这些挑战源于多个相互作用的因素:观测条件的不确定性(例如,目标优先级和云层覆盖的变化影响数据采集质量)、有限的是上资源(如电源、数据存储、姿态控制),以及多智能体设置固有的非平稳性——每颗卫星的动作会持续改变共享环境和其他智能体的状态[araguz2018applying, yao2019task]。

除了这些一般的协调困难,EO任务越来越多地采用异构卫星集群,通过组合不同类型的有效载荷,例如合成孔径雷达(SAR)和光学传感器[cohen2017novasar, dong2024optisar, alzubairi2024spacecraft]。SAR传感器可以在云层覆盖和黑暗条件下工作,而光学传感器在晴朗条件下提供高分辨率成像。这种互补能力显著提高了时间覆盖率和观测可靠性,但也引入了新的协调和控制复杂性。本工作中使用的异构集群的一般场景如图1所示(https://arxiv.org/html/2605.31023#S1.F1)。

参照图注
图1:不同云层条件下用于EO任务的异构卫星集群示意图。卫星部署在三个不同的窄轨道上,形成合作编队。SAR卫星用于覆盖云层覆盖率较高的区域,这些区域是光学(OPT)卫星的负担。因此,管理这样的混合星座不仅需要高效的资源调度,还需要考虑不同能力的自适应策略。

传统的优化技术,如混合整数线性规划(MILP),已被探索用于星座调度和资源分配[kim2024optimal]。它在静态条件下有效,但依赖于预定义模型,适应时变环境和操作不确定性的能力有限。无模型强化学习(RL)提供了一种有前景的替代方案,通过让智能体在与环境交互中学习自适应策略,使卫星能够在不确定性下处理成像、能源使用和数据管理,而无需构建其数学模型[herrmann2024single, stephenson2024bsk]。然而,随着EO任务从单颗卫星扩展到协作集群或星座,决策问题从孤立优化演变为多智能体间的分布式协调——这种设置更适合用多智能体强化学习(MARL)建模[tang2024dynamic]。

现有的MARL在卫星操作中的应用[herrmann2023reinforcement, stephenson2024reinforcement]已显示出令人鼓舞的结果,但通常依赖于完全集中训练或连续通信假设,这简化了现实世界中执行期间对其他智能体信息访问受限的情况。集中训练与分散执行(CTDE)范式[ning2024survey, hady2025multi]通过在集中训练期间让卫星学习协调策略,同时在执行时独立运行,实现了一种实用的平衡。

尽管取得了这些进展,当前的MARL框架大多假设智能体是同构的,即所有卫星共享相同的动力学和观测-行动结构。最近的在策略方法,如多智能体近端策略优化(MAPPO),已在多种MARL环境中展现出稳定的性能[yu2022surprising],适用于同构智能体假设。这种假设限制了在真实EO任务中的适用性,因为传感器多样性和操作不对称性从根本上改变了学习问题。最近在异构智能体MARL方面的进展,例如异构智能体PPO(HAPPO)[zhong2024heterogeneous],引入了独立的价值估计和策略更新机制来处理智能体异质性。然而,它们在物理基础任务中的性能和策略架构的改进仍有待探索。特别是在困难任务下,该方法的性能仍有提升空间。

因此,我们提出了一种基于变换器的算法来处理自主异构卫星集群的EO任务(HADT)。我们的贡献如下:

- • 基于分散部分可观测马尔可夫决策过程(Dec-POMDP)的异构卫星集群资源管理问题公式化。我们提出了包含三种不同复杂度的场景,涵盖了随机性和不确定性方面。
- • 一种应用于异构卫星集群的新型基于变换器的架构算法。我们开发了新的差分多头注意力机制来处理噪声输入。此外,HADT是一个通用的卫星策略模型,可适应多个异构集群。代码已公开提供222https://anonymous.4open.science/r/ECMLPKDD-2A50,并附有实验场景演示视频。
- • 一种基于令牌的智能体观测方法,将观测实体映射到每颗卫星的行动实体。

本文其余部分结构如下:第二节介绍了本研究的预备知识,包括问题公式化、动机和现有技术回顾。第三节描述了用于解决异构卫星集群场景问题的所提方法。第四节讨论我们的实验评估和结果。最后,第五节总结全文并讨论未来方向。

## 2 预备知识

### 2.1 自主异构多卫星集群问题公式化

在本小节中,我们正式建立了自主异构多卫星集群地球观测(EO)任务问题的形式化模型。目标是在轨道运行期间尽可能多地捕获独特的高优先级目标。先前关于单卫星EO任务的研究已将问题表述为著名的强化学习框架中的序列决策任务,具体为部分可观测马尔可夫决策过程(POMDP)[stephenson2024reinforcement, stephenson2024using]。在此基础上,我们正式将多卫星EO任务定义为Dec-POMDP模型,表示为元组:G=⟨I,S,A,O,T,r,Z,γ⟩。

一个集群由三颗卫星组成(如图1(https://arxiv.org/html/2605.31023#S1.F1)所示),每颗卫星作为一个智能体形成一组智能体I,在离散时间步t根据当前状态S和智能体的局部观测O做出决策。观测是状态的一个子集,智能体可以持续观测,包括电池电量、板上存储器、反作用轮转速(角速度)、目标优先级、目标机会窗口、云层覆盖预报、地面站可见窗口、地影期和仿真时间。仿真定义了有限可能的行动集A:1)充电,包括将卫星重新定向朝向太阳以最大化太阳能吸收并给电池充电;2)下行传输,卫星在有地面站接入时传输收集的EO图像数据;3)消旋,确保反作用轮(RW)——姿态控制的主要执行器——在安全转速限制内运行。如果RW转速接近饱和,卫星必须执行消旋机动以维持稳定的姿态控制并防止不可控漂移;4)捕获第i个成像目标,卫星必须将其光学成像传感器对准地球上可用目标中的选定目标i,并将其存储在板上存储器中。

瞬时奖励r整合了三个任务目标:数据采集、资源利用和安全操作,定义如下:

r = {qi - ρt + ci, 如果成功捕获目标; -ρt + δt, 如果下行传输任何数据; -100, 如果发生故障; -ρt, 如果仅消耗能量; 0, 其他情况。} (1)

其中qi ∈ (0,1) 表示时刻t目标区域(AoI)的优先级,并鼓励选择具有更高任务重要性的目标。资源使用效率通过三个支持项来鼓励:1)电池功率使用定义如下:ρt = α ΔQt (1 - Qt),且ΔQt = Qt-1 - Qt,其中ρt惩罚过度的能量消耗(ΔQt)乘以常数α。2)最大化数据下行传输可以通过提供反馈实现:δt = β ΔDt 且 ΔDt = Dt - Dt-1,奖励成功传输收集到的数据。传输的数据量计算为ΔDt乘以标量常数β。3)确保有效载荷正确性,无论是SAR还是光学(OPT),在不同云层条件下:

ci = { -1 + σ, 如果σ<0.5且由SAR捕获; σ, 如果σ≥0.5且由SAR捕获; 1-σ, 如果σ<0.5且由OPT捕获; -σ, 如果σ≥0.5且由OPT捕获; } (2)

其中σ ∈ (0,1) 是云层覆盖率,用于引导SAR卫星仅在阴天条件下使用,光学有效载荷在晴朗条件下使用。如果卫星遭遇故障,则会触发故障条件,表示如下:

故障 = (bt ≤ B_min 或 bt ≥ B_max) 或 (∑_{t=0}^∞ cd,t ≤ dt, D_min ≤ dt ≤ D_max) (4)

这些约束被纳入模型,故障(等式3)在奖励函数中触发,导致惩罚或负奖励作为环境的反馈。其他一些约束,如通信波特率,对系统性能有重要影响。然而,在本工作中,它被假定为固定的发射机规格。

### 2.2 无模型强化学习解决方案的优势

在传统EO卫星任务规划中,当系统动力学、操作约束和目标函数完全已知且准确刻画时,优化问题通常被表述为混合整数线性规划(MILP)模型[chen2019mixedILP]。在这种确定性和定义良好的条件下,MILP提供了一个严格的数学框架,能够在固定规划范围内生成全局最优解。然而,在实际在轨自主操作中,模型不准确性、环境不确定性和部分可观测的系统状态可能会降低基于模型的优化的有效性。在这种情况下,无模型强化学习(RL)提供了一种有前景的替代方案,因为它不需要系统转移模型的显式知识,而是通过与环境交互直接学习决策策略。然而,由于RL策略使用模型来近似最优策略,调度解并非全局最优点,而是称为准最优解。

参照图注
图2:RL和MILP性能比较。在简单案例研究中,RL可以达到与MILP相当的结果。因此,采用PPO的无模型RL可以成为自主异构卫星集群的潜在解决方案。

为了验证这一假设,我们设计了一个简单的卫星集群调度模型作为初步研究和比较(详细的数学模型见补充文档第1节)。该集群由三颗光学卫星组成,在短调度周期(400秒)内模拟,仅有五个地面目标需要捕获。该场景中使用的约束包括电池、存储器、目标机会窗口、地面站机会窗口、地影条件和唯一目标捕获(无重复)。每个时间步(20秒周期)计算资源可用性,并通过运行Basilisk仿真收集时间窗口机会信息,然后将其作为近端策略优化(PPO)[schulman2017PPO]的RL输入或观测。策略输出

相似文章

从自动化到自主化:分层智能体原生网络架构 (HANA)

arXiv cs.AI

本文提出了一种名为HANA的分层多智能体参考架构,旨在实现4级/5级自主网络。它集成了智能体自我意识,以协调战略治理与反射性故障恢复,并在5G核心网络环境中验证,实现了平均修复时间减少86%。

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。