AstroMind: 基于大型语言模型的航天器行为推理高保真基准

arXiv cs.CL 2026/05/26 04:00 论文

spacecraft benchmark large-language-models reasoning astrodynamics ai-evaluation

摘要

AstroMind是一个基于物理的基准，用于评估大型语言模型在航天器行为推理任务上的表现，包括意图推断、机动参数估计和威胁评估，利用高保真天体动力学模拟和逼真的传感器噪声。

arXiv:2605.24573v1 公告类型：新摘要：理解航天器为何进行机动——而不仅仅是它进行了机动——随着地球轨道变得拥挤和竞争激烈，这是一个日益重要的空间领域感知问题。当前的分析流程主要用于检测：它们擅长检测发生了什么事，但不擅长推理其含义。AstroMind是一个基于物理的基准，旨在弥合这一差距。它利用高保真天体动力学模拟和真实的观测约束，将它们转化为三个任务类型的可验证推理问题：意图推断、机动参数估计和威胁评估。每个场景都包含逼真的传感噪声和不同可靠性水平的多源文本情报。评估指标同时捕捉物理约束下的语义正确性和定量一致性。对一套开源模型的基准测试显示，没有单一模型在所有方面占主导地位：Qwen3（32B）在意图推断准确率上领先；QwQ（32B）在威胁评估上领先，并在解析项目上达到最低中位数相对误差；GPT-OSS（20B）产生最强的判断推理质量，并提取最多的参数估计标量值（241个解析项目中的136个）。训练数据组成和推理风格与模型大小同样重要。经过测试的8B模型中，结构化推理提示始终有帮助，对于已经能够跟踪物理约束的模型，收益更大。AstroMind为该领域提供了一个共享测试，用于一个既需要正确理解物理又需要正确解读战术态势的问题——两者缺一不可。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# AstroMind：基于大语言模型的航天器行为推理高保真基准
来源：https://arxiv.org/html/2605.24573
刘浩 (Hao Liu) https://orcid.org/0009-0004-7614-9597\{\}^\{\\lx@orcidlink\{0009\-0004\-7614\-9597\}\{\\orcidlogo\}\}, 杨思远 (Siyuan Yang) https://orcid.org/0000-0003-4681-0431\{\}^\{\\lx@orcidlink\{0000\-0003\-4681\-0431\}\{\\orcidlogo\}\}, 胡庆磊 (Qinglei Hu) https://orcid.org/0000-0002-5563-310X\{\}^\{\\lx@orcidlink\{0000\-0002\-5563\-310X\}\{\\orcidlogo\}\}, 李东宇 (Dongyu Li) https://orcid.org/0000-0001-8338-0536\{\}^\{\\lx@orcidlink\{0000\-0001\-8338\-0536\}\{\\orcidlogo\}\}
刘浩 (Hao Liu) 任职于北京航空航天大学杭州国际创新研究院，杭州 311115，中国。电子邮箱：[email protected] (https://arxiv.org/html/2605.24573v1/[email protected])
杨思远 (Siyuan Yang) 任职于瑞典皇家理工学院，斯德哥尔摩，瑞典。电子邮箱：[email protected] (https://arxiv.org/html/2605.24573v1/[email protected])
胡庆磊 (Qinglei Hu) 任职于北京航空航天大学自动化科学与电气工程学院，北京 100191，中国。电子邮箱：huql\[email protected] (https://arxiv.org/html/2605.24573v1/[email protected])
李东宇 (Dongyu Li) 任职于北京航空航天大学网络空间安全学院，北京 100191，中国。电子邮箱：[email protected] (https://arxiv.org/html/2605.24573v1/[email protected])。通讯作者：李东宇。

###### 摘要

理解航天器为何进行机动——而不仅仅是它是否进行了机动——对于空间态势感知而言，是一个日益重要的问题，因为地球轨道正变得日益拥挤和充满竞争。当前的分析流程是为检测而构建的：它们擅长发现发生了什么事情，但不擅长推理其含义。AstroMind 是一个基于物理的基准，旨在弥合这一差距。它利用高保真天体动力学模拟和真实观测约束，将它们转化为三种任务类型的可验证推理问题：意图推断、机动参数估计和威胁评估。每个场景都包含现实的感知噪声和不同可靠级别的多源文本情报。评估指标同时衡量语义正确性和在物理约束下的定量一致性。对一系列开源模型的基准测试显示，没有单一模型在所有维度上占据主导地位：Qwen3 (32B) 在意图推断准确性上领先；QwQ (32B) 在威胁评估上领先，并在解析项上实现了最低的中位相对误差；GPT-OSS (20B) 产生了最强的评审推理质量，并提取了最多的参数估计标量值（241个解析项中的136个）。训练数据组成和推理风格与模型大小同样重要。结构化推理提示在所有测试的8B模型中提供了一致的帮助，对于已经能够追踪物理约束的模型，收益更大。AstroMind 为该领域提供了一个共享测试，用于解决一个既需要正确理解物理又需要准确解读战术态势的问题——两者缺一不可。

## I. 引言

参照图说明Figure 1: AstroMind 框架。从天体动力学到 LLM 评分任务的四层流水线。第1层通过 Poliastro 动力学核心产生物理真值；第2层添加传感器噪声和模拟情报报告；第3层将结果格式化为结构化任务（意图推断、参数估计、威胁评估）；第4层使用多维指标和推理循环对响应进行评分。

地球轨道正变得日益拥挤。大型卫星星座的激增从根本上改变了近地环境[1 (https://arxiv.org/html/2605.24573#bib.bib1),2 (https://arxiv.org/html/2605.24573#bib.bib2)]：碰撞风险不断上升，空间交通管理越来越困难，而被跟踪的物体中只有少数是功能性卫星。凯斯勒综合征不再仅仅是理论上的担忧；级联碰撞可能使关键轨道带在数代人之内无法使用[3 (https://arxiv.org/html/2605.24573#bib.bib3)]。在此背景下，分析人员面临一个更直接的问题：区分常规轨道校正和具有战略意义的机动。

这一区分将领域从主要询问物体在哪里的空间态势感知（SSA）推向询问它们为何移动的空间领域感知（SDA）。这一转变在分析人员称之为“拥挤、竞争和对抗”的空间环境中最为重要，其中模糊的接近操作可能同时具有运营和安全影响。非合作交会与接近操作（RPO）正是这一解读挑战的核心。

近期事件为这个问题增添了尖锐的边缘。俄罗斯的 Luch/Olymp-K 卫星曾在商业通信卫星附近进行近距离接近机动；中国的实践系列卫星展示了 RPO 能力，模糊了在轨服务与更具对抗性的行为之间的界限[4 (https://arxiv.org/html/2605.24573#bib.bib4),5 (https://arxiv.org/html/2605.24573#bib.bib5)]。理解此类事件需要的不仅仅是轨迹分析——还需要整合技术背景、任务历史和地缘政治背景，这是一项远非任何阈值跨越算法所能企及的推理任务。

目前主导的分析工具仍植根于信号处理。基于卡尔曼滤波的残差分析可以可靠地检测到机动发生，但无法解释原因[6 (https://arxiv.org/html/2605.24573#bib.bib6)]。监督式机器学习提高了检测准确性并降低了误报率，但它仍然存在根本性限制：这些方法对统计模式进行分类，而不是对意图进行分类[7 (https://arxiv.org/html/2605.24573#bib.bib7),8 (https://arxiv.org/html/2605.24573#bib.bib8)]。它们回答发生了什么，而不是意味着什么。

大语言模型（LLM）提供了一种不同类型的工具。由于它们能够将结构化数值数据与非结构化文本（包括新闻报道、操作员声明和情报摘要）相结合，因此它们有潜力连接轨道力学和战略解读[9 (https://arxiv.org/html/2605.24573#bib.bib9)]。它们是否真的能够实现这一飞跃，以及在什么条件下能够实现，是一个实证问题。回答这个问题需要一个专门为此任务构建的基准。

目前尚不存在这样的基准。LLM 评估领域在通用知识测试方面[10 (https://arxiv.org/html/2605.24573#bib.bib10)]非常丰富，并且在医学[11 (https://arxiv.org/html/2605.24573#bib.bib11)]和法律[12 (https://arxiv.org/html/2605.24573#bib.bib12)]等专业领域也在不断增长，但天体动力学完全被排除在外。没有基于物理的、可重复的评估框架，就没有原则性的方法来判断任何给定模型是否正在推理航天器行为，还是仅仅在编造听起来合理但毫无意义的胡说。

AstroMind 是我们针对这一差距的答案。它将高保真天体动力学模拟（受真实观测数据约束）转化为可验证的推理问题，涵盖意图推断、机动参数估计和威胁评估[6 (https://arxiv.org/html/2605.24573#bib.bib6)]。噪声、传感器不完善以及不同可信度的多源情报被编织到每个场景中，以反映分析人员实际面临的信息环境。

在本文中，我们利用 AstroMind 使航天器行为推理成为一个可复现的 LLM 评估问题。该基准将基于物理的模拟、观测约束场景和多源文本证据与需要数值一致性和战略解读的任务联系起来。然后，我们的实验比较了不同开源模型在任务准确性、物理参数估计和评审推理质量方面的表现，表明这些能力并不总是同步提升。

本文的核心贡献是：

- •一个面向航天领域的专用基准，旨在测试 LLM 是否能够从多源观测证据中推断出战略意图，而不仅仅是检测到事件的发生。
- •一个四层生成框架，将专业的天体动力学模拟与现实世界观测数据联系起来，使每个基准实例既能回答物理问题，也能回答行动记录问题。
- •一个涵盖意图推断、参数预测和威胁评估的多维任务系统——覆盖从观测到判断的完整分析链。
- •一个混合语义-数值评估协议（HSNE），它将任务类型化、语义提取和数值聚合分开，使评分对自由形式 LLM 输出的语言变异性具有鲁棒性。
- •通过推理循环对结构化推理脚手架进行消融，表明其效果对能力敏感：它在所有测试的 8B 模型上都产生了改进，对于已经能够追踪物理约束的模型，收益更大。

结果是一个迫使问题公开的框架：模型是否在推理航天器行为，还是仅仅在生成听起来正确但物理上不一致的文本？

## II. 相关工作

### II-A. 空间态势感知中的计算方法

#### II-A1. 信号处理及其限制

航天器机动检测的标准工具箱基于残差分析：将航天器的预测位置与观测测量值进行比较，当差距超过阈值时标记机动[13 (https://arxiv.org/html/2605.24573#bib.bib13)]。卡尔曼滤波器是这里的主力工具[14 (https://arxiv.org/html/2605.24573#bib.bib14)]，它们在设计用途上表现良好。问题在于区分真实的机动和传感器噪声——这一区别在操作系统中导致持续的虚警问题。

最近的研究进一步推进了残差分析，将其应用于来自光学[15 (https://arxiv.org/html/2605.24573#bib.bib15)]和雷达[16 (https://arxiv.org/html/2605.24573#bib.bib16)]巡天数据的脉冲机动估计，并将其扩展到使用序贯蒙特卡洛滤波的随机混合系统公式[17 (https://arxiv.org/html/2605.24573#bib.bib17)]。但它们具有相同的基本特征：它们是记录航天器做了什么的反应性仪器，而不是能够解释其为何这样做的工具。监督式 ML 模型——SVM、随机森林、深度神经网络——提高了准确性并减少了误报[18 (https://arxiv.org/html/2605.24573#bib.bib18)]，但继承了相同的限制。它们对时间序列数据中的统计模式进行分类；它们不解释意图。

#### II-A2. 用于自主航天器操作的AI

另一条并行线索是将AI应用于航天器导航、制导与控制（GNC），特别是用于自主交会和主动碎片清除。在视觉感知方面的工作，包括 SpaceSeg[19 (https://arxiv.org/html/2605.24573#bib.bib19)]，已经表明视觉基础模型可以在轨目标上实现高精度分割，从而能够从复杂的轨道场景中提取详细状态。强化学习随后被用于构建控制策略，将这些感知输入直接映射到执行器命令[20 (https://arxiv.org/html/2605.24573#bib.bib20)]，从而确立了完全自主的空间代理在技术上是可行的。

关键区别在于，这些系统是为自我中心控制设计的：它们优化已知代理在合作或定义良好的场景中的行为。AstroMind 针对的是不同层面——推断其他代理（可能是不合作的代理）的意图。推理其他航天器在做什么以及为什么做，是多代理轨道环境中稳健自主性的前提。现有的 GNC 框架没有解决这个问题。

### II-B. LLM 基准与航天领域的空白

#### II-B1. 从通用到专业评估

早期的 LLM 基准如 SuperGLUE[21 (https://arxiv.org/html/2605.24573#bib.bib21)] 和 MMLU[10 (https://arxiv.org/html/2605.24573#bib.bib10)] 建立了通用评估范式，并揭示了广泛的语言能力正在快速进步。随着模型成熟，领域转向了专业测试：MultiMedQA[22 (https://arxiv.org/html/2605.24573#bib.bib22)] 用于临床推理，LegalBench[12 (https://arxiv.org/html/2605.24573#bib.bib12)] 用于法律解释，HumanEval[23 (https://arxiv.org/html/2605.24573#bib.bib23)] 用于代码生成。模式是一致的——通用基准无法捕捉专家领域中重要的失败模式，因此出现了专门的替代方案。

#### II-B2. 缺失的案例：天体动力学

航空航天工程被排除在这一趋势之外。如表 I (https://arxiv.org/html/2605.24573#S2.T1) 所示，没有现有的基准针对轨道力学和航天器操作的物理约束设置。没有标准化的评估工具，任何关于 LLM 在该领域能力的声明——无论是来自供应商还是研究实验室——都依赖于轶事而非测量。AstroMind 正是为弥合这一差距而构建的。

表 I：主流 LLM 推理基准比较

### II-C. 与 AstroMind 相关的推理范式

#### II-C1. 结构化推理与思维链

思维链（CoT）提示[24 (https://arxiv.org/html/2605.24573#bib.bib24)] 确立了要求模型展示其工作过程可以显著提高在多步骤问题上的性能。思维树（ToT）[25 (https://arxiv.org/html/2605.24573#bib.bib25)] 进一步扩展了这一点，允许并行探索推理分支。AstroMind 的“推理循环”机制和推理链评估指标建立在这种直觉之上——目标不仅是为最终答案打分，还要评估中间推理是否反映了连贯的物理理解。

#### II-C2. 物理信息与多模态推理

标准 LLM 在物理约束与统计模式冲突时倾向于忽略它们[26 (https://arxiv.org/html/2605.24573#bib.bib26)]，这使得它们在具有严格物理定律的问题上不可靠[27 (https://arxiv.org/html/2605.24573#bib.bib27)]。AstroMind 场景通过将数值轨道时间序列与自然语言情报报告相结合，加剧了这一挑战，要求模型处理两种数据模态并保持它们之间的一致性。这使得该基准成为在真实约束下进行物理信息、多模态推理的具体试验台。

该领域已从通用的“g 因子”评分[28 (https://arxiv.org/html/2605.24573#bib.bib28)] 转向对特定能力的领域专业化测试[29 (https://arxiv.org/html/2605.24573#bib.bib29)]。AstroMind 将这种方法引入航天领域，其中关键能力是将物理动力学与战略推断相结合——这是之前没有基准衡量过的。

## III. 方法

AstroMind 使用一个四层流水线将天体动力学模拟和观测数据转化为面向大语言模型的结构化评估任务（图 1 (https://arxiv.org/html/2605.24573#S1.F1)）。每一层处理一个不同的转换：从物理到测量，从测量到含噪声的多源数据，从数据到提示格式化的任务，以及从任务到评分结果。

### III-A. 第 1 层：动力学模拟与观测数据

#### III-A1. 基于物理的模拟

我们在 Poliastro 上构建了模拟层，这是一个开源轨道力学库（v0.17；注意该项目已于 2023 年归档，但这里使用的传播功能仍然完全可用）。轨迹使用龙格-库塔法通过 Cowell 方法进行传播。

AstroMind: 基于大型语言模型的航天器行为推理高保真基准

相似文章

Stargazer：面向天体物理约束下 AI 智能体的可扩展模型拟合基准环境

大型语言模型中的数学推理：基准、架构、评估与开放挑战

OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试

MAI-Thinking-1

BEAMS: AI在建模与仿真中的基准测试与评估

提交意见反馈