一颗卫星刚刚学会了自主寻找目标——这意味着什么
摘要
一颗名为 Yam-9 的卫星在轨使用了 Google DeepMind 的 Gemma 3 视觉语言模型,基于自然语言查询自主识别感兴趣区域,标志着首次有报道在太空中使用 VLM,并预示着卫星运行向更加自主的方向转变。
今年4月,一颗地球观测卫星首次自主找到了它要寻找的目标。
查看缓存全文
缓存时间: 2026/06/15 14:57
# 一颗卫星刚学会了自主寻找目标——这意味着什么 | TechCrunch
来源:https://techcrunch.com/2026/06/15/a-satellite-just-learned-to-find-things-on-its-own-heres-what-that-means/
地球观测卫星首次自主找到了它要寻找的目标——没有地面人类分析师介入。这一里程碑发生在今年四月,标志着视觉语言模型在轨运行的首个公开案例,并预示了人工智能可能从根本上改变天基传感器的能力及价值。
通常情况下,卫星会将大量数据下载给地面分析师,后者利用机器学习算法或肉眼来判断发生了什么。但在空间基础设施公司 Loft Orbital (https://loftorbital.com/) 建造的 Yam-9 卫星上,NASA 喷气推进实验室开发的一套软件包根据自然语言查询识别出了感兴趣的区域。
Google DeepMind 的 Gemma 3——驱动此次演示的视觉语言模型(VLM)——是专为边缘应用打造的,意味着它设计用于在远离数据中心的有限硬件上运行。VLM 结合了大语言模型的上下文理解能力和图像分析能力:研究人员要求模型对传感器数据中自然环境与人类发展交汇区域进行分类,或识别铁路枢纽周边的基础设施——它都做到了。
这一演示之所以重要,有两大原因。近期看,它可以通过在轨完成初始数据筛选,大大提升空间传感器的实用性,减少分析师目前需要处理的海量原始数据。长期看,它证明了我们有望在太空中运行更大规模的人工智能基础设施。
“它开启了太空中始终开启的巡逻层大门,”Loft 的人工智能主管 Paul Lasserre 告诉 TechCrunch,“有了 VLM,你可以设置逻辑——比如‘帮我监控这条边境,有可疑情况就通知我’——并与卫星进行双向交互。”
Loft 的航天器设计为第三方客户的平台。其商业模式更接近基础设施即服务,而非传统卫星制造。最近的一项交易中,该公司为 EarthDaily 建造、发射并运营了六颗新卫星,后者将分析并营销卫星上收集的数据。Yam-9 于 2025 年秋季发射,是该公司轨道 AI 项目的探路者,搭载了 NVIDIA Jetson Orrin AGX GPU——太空计算领域领先的芯片之一。
NASA JPL 人工智能组的 technical leader Juan Delfa Victoria 主导开发了 NAVI-Orbital 软件包,它实际上是 Gemma 3 VLM 的“马具”。虽然 Gemma 3 是现成的,但软件工程师们必须精简该软件包,以减少所需的库和内存。
虽然这是 VLM 在轨运行的首个公开案例,但可以预见其他公司也会跟进。Planet Labs 的卫星搭载了 Jetson Orin 处理器;目前它们只用于更简单的物体检测任务,但一位发言人表示,其他 AI 应用(包括 VLM)的研究正在进行中。
运营着太空中最大 GPU 集群 (https://techcrunch.com/2026/04/13/the-largest-orbital-compute-cluster-is-open-for-business/) 的 Kepler Communications,由于与合作伙伴的保密协议,拒绝透露是否已在太空中部署 VLM,但指出自今年 1 月这些航天器发射以来,“已有数个未公开的算力环境使用案例”。
“既然我们已经验证了这一概念,那这就是未来的方向,”Lasserre 说。目标是扩建星座,确保对地球任何地点进行实时覆盖,他表示这需要大约 50 到 100 颗类似 Yam-9 的卫星。(Loft 目前在轨运行 12 颗航天器。)
在轨部署这些小模型所获得的经验,将指导企业如何在太空中部署更大规模的算力基础设施,尤其是在电源和内存管理等看似平淡却至关重要的领域。
它们还可能为新的科学工具铺平道路。NAVI-Space 的想法始于 JPL 研究员 Taran Cyriac John,他一直在思考为探索月球或火星的宇航员提供数字助手。
“我们在想,宇航员穿着加压服,显然不能敲键盘,他们想做的任何事情都很复杂。”Delfa Victoria 说,“那么,何不提供一个像电子游戏和电影中那样的交互式 AI 助手呢?”
只是别叫它 HAL 9000。
*通过我们文章中的链接购买商品,我们可能会获得小额佣金 (https://techcrunch.com/techcrunch-affiliate-monetization-standards/)。这不会影响我们的编辑独立性。*
Tim Fernholz 是一名报道科技、金融和公共政策的记者。他长期追踪私营航天产业的崛起,并著有 *Rocket Billionaires: Elon Musk, Jeff Bezos and the New Space Race*。此前,他在全球商业新闻网站 Quartz 担任高级记者超过十年,职业生涯始于华盛顿特区的政治记者。你可以通过 [email protected] 或 Signal 上的加密留言 tim_fernholz.21 联系或核实 Tim 的来访。
查看个人简介 (https://techcrunch.com/author/tim-fernholz/)
相似文章
一颗卫星现在在轨道上运行谷歌的Gemma 3视觉语言模型,进行星载推理,而不是先下行传输所有数据
Loft Orbital的YAM-9卫星在轨运行谷歌的Gemma 3视觉语言模型,用于实时图像分析,通过决定发送哪些数据到地球,减少了下行带宽和延迟。
NAVI-Orbital: 面向自主地球观测的零样本视觉语言模型的首次在轨演示
NAVI-Orbital展示了零样本视觉语言模型(Gemma 3)在低地球轨道卫星上的首次在轨部署,无需微调即可实现自主场景分类和地球观测数据的语义压缩。
@GoogleDeepMind:团队无需编写复杂代码,仅用日常英语即可与Spot交互。我们搭建了Gemini Ro…
Google DeepMind已将Gemini与波士顿动力的Spot机器人整合,实现无需复杂编码的自然语言控制。用户现在可以用日常英语指令Spot执行导航、拍照、物体操控等复杂任务。
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
Gemini Robotics On-Device 将人工智能带到本地机器人设备
Google DeepMind 推出 Gemini Robotics On-Device,这是一个高效的 VLA 模型,可以在机器人设备上本地运行,实现低延迟操作和离线功能,同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调,并附带供开发者使用的 SDK。