NAVI-Orbital: 面向自主地球观测的零样本视觉语言模型的首次在轨演示

arXiv cs.AI 2026/06/18 04:00 论文

earth-observation vision-language-model zero-shot satellite onboard-ai gemma nasa

摘要

NAVI-Orbital展示了零样本视觉语言模型（Gemma 3）在低地球轨道卫星上的首次在轨部署，无需微调即可实现自主场景分类和地球观测数据的语义压缩。

arXiv:2606.18271v1 公告类型：新摘要：随着地球观测数据的生成速度超过下行链路带宽与人工参与处理的能力，星上采集与可操作地面情报之间的差距日益扩大。本文介绍了部署在低地球轨道（LEO）航天器上的软件系统NAVI-Orbital。2026年4月16日，NAVI-Orbital实现了据作者所知首次在轨演示——视觉语言模型完全在星上执行自主多模态推理。NAVI-Orbital利用本地视觉语言模型（Gemma 3）对每个捕获场景进行分类，生成关于其内容及特征关系的文本描述，并通过自然语言对话响应操作员的后续询问。该系统通过纯英语提示替代传统指令序列进行重新任务分配，并由基于图的状态机（LangGraph）协调专门用于检测和对话的智能代理。地面基准测试（在包含7,960张图像的精选AID基准上准确率达88.16%）、平板卫星验证以及对新获取且之前未见过的地球图像的实时在轨捕获（包括未校正的YAM-9图像，在星上通过硬件加速GPU推理进行处理，且未对飞行仪器进行微调）的结果表明，在卫星级边缘计算机上运行基础模型是可行的，从而通过在轨地球观测的语义压缩颠覆传统的“先采集再全量下行”的带宽模式。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:39

# NAVI-Orbital：首例零样本视觉语言模型在轨自主地球观测演示  
来源：https://arxiv.org/html/2606.18271  

###### 摘要  

随着地球观测数据生成速度超过下行链路带宽和人工参与式处理能力，星上采集与地面有效情报之间出现了一个日益扩大的鸿沟。本文介绍NAVI-Orbital——一套部署在低地球轨道（LEO）航天器上的软件系统。2026年4月16日，NAVI-Orbital实现了（据作者所知）首次在轨演示：一个视觉语言模型完全在星上进行自主多模态推理。NAVI-Orbital利用本地视觉语言模型（Gemma 3）对每个拍摄场景进行分类，生成包含内容及特征间关系的文本描述，并通过自然语言对话响应操作员的后续询问。该系统可通过纯英文提示重新指定任务，以替代传统指令序列；整个流程由基于图的状态机（LangGraph）编排，协调专用的检测与对话代理。地面基准测试（在7,960张图像的精标AID基准上达到88.16%准确率）、平板卫星（Flatsat）验证以及针对新获取、未见过的地球影像（包括未经校正的YAM-9影像，通过硬件加速GPU推理在星上处理，且未对飞行仪器进行微调）的实时在轨捕获结果，均证明了在卫星级边缘计算机上运行基础模型的可行性，从而通过星上的语义压缩颠覆传统的“先采集再全量下传”带宽模式。  

## I 引言  

现代地球观测（EO）仪器正以快速增长的速度生成数据，然而管理这些数据量的两个关键途径——物理下行链路带宽与人工审核能力——无法按比例扩展。这导致星上数据生成与地面操作员可利用情报之间出现日益扩大的鸿沟[9 (https://arxiv.org/html/2606.18271#bib.bib1)]。星上处理提供了部分解决方案，但当前实现大多局限于“专用检测器”：经过训练以识别特定、预定义像素模式的算法（例如，围绕船只画一个边界框）[8 (https://arxiv.org/html/2606.18271#bib.bib2)]。这些系统在其狭窄范围内有效，但要适应新的现象学就需要重新训练模型、验证新二进制文件和执行复杂的软件更新，这一过程缓慢、昂贵，且根本上有悖于未来任务所需的敏捷性。  

### I-A NAVI-Orbital  

NAVI-Orbital是一个由NASA喷气推进实验室（JPL）研究人员开发、部署在Loft Orbital公司YAM-9低地球轨道（LEO）航天器上的软件框架，它利用多模态大语言模型（Google Gemma 3[5 (https://arxiv.org/html/2606.18271#bib.bib5)]）来理解图像内容并以纯英文描述。通过联合处理视觉和文本信息，该模型形成了对场景内容的语义理解，生成的上下文描述不仅识别出图像中存在哪些物体和特征，还识别出它们之间的关系（例如，“一条穿过森林地区的高速公路”）。与需要针对每个新目标类别重新训练的传统专用检测器不同，NAVI-Orbital利用视觉语言模型的开放词汇特性[32 (https://arxiv.org/html/2606.18271#bib.bib40),25 (https://arxiv.org/html/2606.18271#bib.bib41)]，使得它能够仅通过修改提示词就适应新的观测任务，而无需改动底层模型架构（第III-B节(https://arxiv.org/html/2606.18271#S3.SS2)）。这一能力将使未来的卫星能够智能地响应其环境，而不是作为被动传感器响应预定触发条件。  

系统运行经过一系列步骤，从图像接收到人-航天器对话。用户上传一条纯英文提示，定义要寻找的目标以及一组目标标签。NAVI对每张图像进行分类，生成场景的文本描述，并为每张图像存储结构化记录。紧凑的文本摘要下传到地面，操作员进行审核并仅请求高价值场景的完整图像。只要航天器与地球有直接通信，操作员便可通过脚本设置的问题集或交互式聊天进一步询问结果。这一流水线由多智能体架构编排，该架构由三个自主智能体组成，彼此交办工作：一个编排器协调执行，一个检测器分析、分类并总结图像，一个对话智能体使操作员能够就结果提问。这种设计使得NAVI无需从头重建即可适应不同任务。  

### I-B 贡献  

主要贡献如下：  
- **首次在轨多模态推理**：NAVI主动处理直接来自航天器传感器的新鲜活影像。Gemma 3模型在严格的尺寸、重量和功率约束下，在卫星级边缘处理器上以硬件加速GPU推理运行，证明了复杂的多智能体AI工作流可以在航天器上的边缘计算硬件上执行。  
- **无需重新训练的通用知识**：在互联网规模数据集上训练的大规模模型具备泛化识别能力，消除了为每个特定概念或仪器进行单独重新训练的必要。NAVI利用这种零样本能力，仅通过更改文本提示即适应新观测任务，无需改动核心软件或部署新的神经网络架构。该系统在大约7,000张图像上（跨越多个数据集和多个硬件平台）进行了验证，并成功处理了来自YAM-9的实时影像，无需对该光学仪器进行任何专门的微调，包括未经校正的实时影像。  
- **多模态上下文推理**：通过利用视觉语言模型（VLM），NAVI形成了对所观测场景的语义理解。传统的星上分类器仅输出离散标签或边界框，缺乏上下文意识。而NAVI生成了丰富、上下文化的描述，实现了知识驱动的自主性——航天器解读其环境，而不仅仅是检测预定目标。  
- **纯英文操作**：NAVI用自然语言替代了复杂的航天器指令和数据检索，覆盖整个输入/输出回路。在上行链路，操作员使用简单的文本提示定义要寻找的目标，指定目标标签和处理指令，而不是僵硬的指令序列。在下行链路，航天器返回其处理的每张图像的纯英文文本摘要。操作员可通过脚本设置的问题集或交互式聊天进一步询问结果，选择性地下传仅有高价值的图像，从而优化有限的通信窗口[9 (https://arxiv.org/html/2606.18271#bib.bib1)]。当星际链路（ISL）可用时，此对话可近乎实时地进行，将整个与卫星的交互回路转变为直观的自然对话。  

### I-C 论文组织  

本文其余部分组织如下：第二节概述星上AI、载人平台上的生成模型以及遥感中视觉语言模型的相关工作。第三节描述系统架构，包括基于LangGraph的指挥图、智能体生态系统和硬件集成。第四节详述实验设置、数据集和分阶段验证方法。第五节展示地面基准测试、平板卫星（Flatsat）验证和在轨演示的结果。第六节和第七节讨论意义、局限性和结论。  

## II 相关工作  

### II-A 用于地球观测的星上AI  

从地面在环操作到星上自主性的转变是由最大化航天器科学效用的需求驱动的。EO-1上的自主科学实验（ASE）率先使用星上分类器检测火山活动等特征并触发后续数据采集[2 (https://arxiv.org/html/2606.18271#bib.bib13)]。随着空间级计算硬件的成熟，焦点转向深度神经网络。Φ-Sat-1任务展示了专用硬件加速器在利用卷积神经网络（CNN）过滤云层覆盖影像方面的有效性[7 (https://arxiv.org/html/2606.18271#bib.bib14)]。虽然这些系统非常有效，但它们依赖于固定类别监督。传统上，使它们适应新现象学需要进行复杂、单一的软件更新。为解决这一局限性，近期任务已在轨验证了可重新训练的AI架构。早期工作证明了在资源受限的卫星硬件上利用机器学习进行全球洪水制图的可行性[20 (https://arxiv.org/html/2606.18271#bib.bib15)]，为自适应星上分割奠定了基础。这一方法随后被扩展到轨道部署，在D-Orbit的ION卫星上演示了一个可重新训练的机器学习有效载荷在轨运行，其中分割模型在发射后持续更新以保持动态洪水检测任务的高精度[19 (https://arxiv.org/html/2606.18271#bib.bib16)]。与此同时，欧洲空间局的OPS-SAT纳米卫星已作为一个专用的轨道测试平台，允许不同的深度学习算法（如SmartCam应用程序）被动态上传、混合并在太空的边缘硬件上执行[14 (https://arxiv.org/html/2606.18271#bib.bib17)]。在数据缩减方面进一步推进，像KP Labs的Intuition-1[29 (https://arxiv.org/html/2606.18271#bib.bib18)]和HYPSO-1[11 (https://arxiv.org/html/2606.18271#bib.bib19)]等任务近年来利用星上深度神经网络直接在轨处理高光谱数据，将原始仪器数据转化为可操作情报，大幅减少下传到地面的遥测数据量。超越单一算法，当代架构现已支持并发、多应用处理；武汉大学的珞珈3号利用异构并行计算实现同时应用执行[33 (https://arxiv.org/html/2606.18271#bib.bib20)]，欧空局的Φ-Sat-2则在轨原生执行完整的端到端数据处理链。在静态图像处理之外，动态目标指向（DT）通过利用“前视”传感器分析卫星地面轨迹前方的场景，进一步扩展了星上自主性。这使得主仪器能够自主摆扫并以更高精度捕获高价值目标。近期在CogniSAT-6航天器上的飞行演示已在低地球轨道（LEO）环境中验证了DT，成功利用边缘计算进行前视分析并实时驱动主传感器任务调度[3 (https://arxiv.org/html/2606.18271#bib.bib23)]。然而，尽管取得了这些显著进展，当前实现通常依赖于针对特定目标（如云层、洪水或热异常）定制的专用预训练分类器，而非开放词汇解释。  

### II-B 太空中的生成式AI  

与自主遥感领域的进展并行，早期努力已出现在部署大语言模型（LLM）以支持载人航天和自主子系统控制方面。2024年，一个基于文本的生成式AI模型部署在国际空间站（ISS）上，利用了HPE Spaceborne Computer-2基础设施。该系统旨在通过检索增强生成（RAG）协助宇航员进行维护程序[1 (https://arxiv.org/html/2606.18271#bib.bib24)]。2025年，这一范式随着“Space Llama”而进展——Meta与Booz Allen合作成功将量化的Llama 3.2模型部署到ISS[21 (https://arxiv.org/html/2606.18271#bib.bib25)]。作为多模态数字助手，Space Llama促进科学和技术任务，包括预测性维护和对文档的自主访问，有效地替代了船员的纸质太空手册。虽然Space Llama展示了LLM作为交互式助手的实用性，但近期研究已转向主动的代理式监督。ASTREA（用于热调节和嵌入式自适应的代理系统）任务代表了首个在飞行遗产硬件上执行的用于自主操作的代理系统，并在ISS上进行了在轨验证[22 (https://arxiv.org/html/2606.18271#bib.bib26)]。ASTREA利用了一种异步混合架构，其中资源受限的LLM为负责轨道热调节的实时强化学习控制器提供战略性的语义指导[22 (https://arxiv.org/html/2606.18271#bib.bib26)]。地面和在轨实验表明，这种语义推理能力改善了热稳定性、延长了回合时长并优化了CPU利用率，证明了在严格硬件约束下将LLM与自适应控制相结合的可行性。  

### II-C 太空生成式AI的关键技术  

#### II-C1 边缘推理与硬件优化  

将数十亿参数的基础模型部署到受限的航天器总线上需要广泛的硬件抽象和内存优化。llama.cpp框架提供了一个无依赖的C/C++推理引擎，直接与边缘CPU和神经处理单元（NPU）交互[6 (https://arxiv.org/html/2606.18271#bib.bib11)]。为缓解严重的内存带宽瓶颈，研究人员越来越多地采用块级量化技术来降低张量精度[4 (https://arxiv.org/html/2606.18271#bib.bib29)]。近期对量化格式的统一评估证实，亚字节整数表示显著减少了内存占用，同时保留了复杂的推理和指令遵循能力[13 (https://arxiv.org/html/2606.18271#bib.bib27)]。  

#### II-C2 视觉语言与地理空间基础模型  

在轨部署的生成模型必须根据地球观测遥测数据的独特空间和光谱特征进行调整。NAVI-Orbital使用Gemma 3 4B指令微调模型，采用Q4_0 GGUF量化格式，并配备专用的多模态投影器（mmproj）用于视觉-语言融合。该模型引入了混合交错注意力，显著减少了处理长达128K token长上下文所需的关键值（KV）缓存内存开销[5 (https://arxiv.org/html/2606.18271#bib.bib5)]。它还利用动态“扫描与平移”视觉集成策略，在不进行破坏性下采样的前提下保留关键的高分辨率元数据[5 (https://arxiv.org/html/2606.18271#bib.bib5)]。在遥感领域内，RemoteCLIP率先进行了对比对齐，以桥接文本描述与轨道影像，实现了开放词汇、零样本分类和检索[17 (https://arxiv.org/html/2606.18271#bib.bib7)]。GeoChat通过引入基于位置的空间推理扩展了这些能力，使模型能够处理并输出与自然语言交织的精确边界框坐标[12 (https://arxiv.org/html/2606.18271#bib.bib8)]。

NAVI-Orbital: 面向自主地球观测的零样本视觉语言模型的首次在轨演示

相似文章

一颗卫星现在在轨道上运行谷歌的Gemma 3视觉语言模型，进行星载推理，而不是先下行传输所有数据

一颗卫星刚刚学会了自主寻找目标——这意味着什么

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

RemoteZero：实现零人工标注的地理空间推理

JoyAI-VL-Interaction: 实时视觉-语言交互智能

提交意见反馈