Co-GLANCE:面向异构机器人团队的不确定性感知主动感知系统
摘要
Co-GLANCE 是一种用于异构机器人团队的实时机载感知与决策系统,它将视觉语言模型的能力蒸馏为高效模型,并利用保形预测与选择性弃权来量化并解决感知不确定性,相比基于云端的视觉语言模型基线高出 25-36%,同时延迟降低了 350 倍。
arXiv:2606.09919v1 Announce Type: new
摘要:感知不确定性是异构机器人团队在非结构化户外环境中面临的核心挑战,因为没有任何单一视角能够提供可靠的场景理解。感知不确定性(例如由遮挡引起)会根据场景结构在不同机器人视角上表现出差异。检测并解决感知不确定性的来源既需要基于场景的上下文推理,也需要具备能力感知的机器人分配。尽管视觉语言模型为两者提供了强大的语义先验,但它们在机载推理上计算成本过高,且缺乏校准的不确定性量化。我们提出了 Co-GLANCE,一种用于异构机器人团队不确定性解决的实时机载感知与决策系统。Co-GLANCE 将视觉语言模型的语义推理能力蒸馏为端到端的遮挡分割与机器人分配模型,从而消除了对云端推理的依赖。为了量化感知不确定性,Co-GLANCE 将保形预测与选择性弃权相结合,为分割、机器人分配和检测输出提供统计有效的覆盖保证。这些校准后的不确定性估计直接触发主动感知,派遣最合适的机器人获取信息丰富的视角并解决不确定性。在真实场景中,Co-GLANCE 在遮挡分割和机器人分配精度上分别比基于云端的视觉语言模型基线高出 25% 和 36%,同时将每帧推理延迟降低了 350 倍。我们还发布了一个空地数据集以供未来研究。代码、视频和数据集见 https://co-glance.github.io/ 。
查看缓存全文
缓存时间: 2026/06/10 06:18
# Co-GLANCE: 异构机器人团队中不确定性感知的主动感知
来源:https://arxiv.org/html/2606.09919
Michal P. Podolinsky∗ Neel P. Bhatt∗ Pranay Samineni Rohan Siva Christian Ellis Ufuk Topcu
德克萨斯大学奥斯汀分校
∗同等贡献
{michal.podolinsky,npbhatt,pranay_s,rohansiva}@utexas.edu [email protected], [email protected]
###### 摘要
感知不确定性是异构机器人团队在非结构化户外环境中运行的核心挑战,没有任何单一视点能够提供可靠的场景理解。由遮挡等来源产生的感知不确定性,会根据场景结构在不同机器人视点上表现出不同的形式。检测并解决感知不确定性的来源,需要基于场景的上下文推理和具备能力感知能力的机器人分配。尽管视觉-语言模型为两者都提供了强大的语义先验,但它们对于机载推理而言计算成本过高,且缺乏校准后的不确定性量化。我们引入了 **Co-GLANCE**,这是一个用于异构机器人团队中不确定性解决的实时机载感知与决策系统。Co-GLANCE 将视觉-语言模型的语义推理能力蒸馏为一个端到端模型,用于遮挡分割和机器人分配,从而消除了对云端推理的依赖。为了量化感知不确定性,Co-GLANCE 结合了共形预测与选择性弃权,为分割、机器人分配和检测输出提供统计有效的覆盖保证。这些校准后的不确定性估计直接触发主动感知,派遣最合适的机器人获取信息量丰富的视点并解决不确定性。在真实场景中,Co-GLANCE 在遮挡分割和机器人分配准确率上分别比基于云的视觉-语言模型基线高出 25% 和 36%,同时将每帧推理延迟降低了 350 倍。我们还发布了一个用于未来研究的空-地数据集。代码、视频和数据集可在以下网址获取:co-glance.github.io (https://co-glance.github.io/)。
> 关键词:异构机器人团队,主动感知,不确定性量化,视觉-语言模型,知识蒸馏
## 1 引言
参见图注:图1:空-地机器人团队协作场景。
参见图注:图2:Co-GLANCE 系统概览:(1) 感知不确定性检测,(2) 遮挡不确定性,(3) 高不确定性区域的分辨,(4) 目标检测,(5) 检测不确定性,(6) 不确定性驱动的主动感知。
异构空-地机器人团队为在复杂户外环境中运行提供了互补的感知和机动能力。然而,在非结构化场景中,没有任何单一视点能够提供可靠的场景理解。由遮挡引起的感知不确定性,会根据场景几何结构和穿越能力在不同平台上表现出不同形式:植被可能会遮挡空中机器人,但对树冠下的地面机器人而言可能是透明的;而从上方看微不足道的障碍物,则可能完全遮挡地面机器人的视野。因此,检测和解决不确定性需要基于上下文的场景理解和具备能力感知的机器人协调。
视觉-语言模型(VLM)的最新进展在异构机器人系统的语义推理方面显示出前景[19 (https://arxiv.org/html/2606.09919#bib.bib62),16 (https://arxiv.org/html/2606.09919#bib.bib32),21 (https://arxiv.org/html/2606.09919#bib.bib2),5 (https://arxiv.org/html/2606.09919#bib.bib271)]。原则上,它们可以识别模糊区域,并推理出应由哪个平台来解决它们。然而在实践中,它们计算成本高昂,通常需要云端推理,并且缺乏校准后的不确定性估计。现有的主动感知方法同样依赖于启发式或未校准的置信度,这限制了在安全关键场景中的可靠性。
共形预测为不确定性量化提供了分布自由的覆盖保证[2 (https://arxiv.org/html/2606.09919#bib.bib178)]。然而,标准方法产生的是预测集而非决策,而选择性预测则引入弃权而不解决不确定性。在异构团队中,不确定性必须是可行动的:必须决定何时需要额外的感知,以及哪个机器人应该去获取它。
为应对这些挑战,我们引入了 **Co-GLANCE**,一个用于异构机器人团队的机载不确定性感知与决策框架。Co-GLANCE 将 VLM 的语义推理蒸馏为一个轻量级端到端模型,用于遮挡分割和机器人分配,从而消除了云端推理。我们还引入了一种上下文自我审查机制,通过在缓存对话中进行多轮精炼,提高了 VLM 生成监督的一致性。我们将选择性弃权与共形预测相结合,为分割、机器人分配和检测产生校准后的不确定性估计,这些估计直接驱动主动感知和机器人调度。
- • **用于异构机器人团队的机载不确定性感知推理。** Co-GLANCE 执行实时遮挡分割和机器人分配,在遮挡分割和机器人分配准确率上分别比基于云的视觉-语言模型基线高出 25% 和 36%。
- • **用于主动感知的校准后不确定性估计。** 我们结合了选择性弃权和共形预测,为分割、机器人分配和目标检测输出提供统计有效的不确定性保证。
- • **用于 VLM 蒸馏的上下文自我审查。** 我们引入了一种多轮自我审查机制,提高了 VLM 生成的遮挡推理和机器人分配监督的一致性。
- • **真实世界部署与数据集发布。** 我们在空-地机器人上验证了 Co-GLANCE,实现了 350 倍的推理延迟降低,并发布了一个多模态空-地数据集。
## 2 相关工作
**多机器人系统的基础模型。** 近期工作探索了使用大语言模型和视觉-语言模型进行异构机器人协调与规划[9 (https://arxiv.org/html/2606.09919#bib.bib60),12 (https://arxiv.org/html/2606.09919#bib.bib59),26 (https://arxiv.org/html/2606.09919#bib.bib58),8 (https://arxiv.org/html/2606.09919#bib.bib57)]。SPINE 和 SPINE-HT[21 (https://arxiv.org/html/2606.09919#bib.bib2),19 (https://arxiv.org/html/2606.09919#bib.bib62)] 将这些思想扩展到非结构化环境,通过语义映射和可行性感知规划。虽然适用于高层推理和任务分解,但这些方法较少关注不确定性感知的感知,并且通常依赖云端推理而缺乏校准后的可靠性保证。相较之下,我们的工作针对异构团队中的机载不确定性感知感知和能力感知机器人分配。
**用于机器人的 VLM 蒸馏。** 近期工作使用 VLM 作为训练时的监督者,用于轻量级下游模型[3 (https://arxiv.org/html/2606.09919#bib.bib24)],将多模态推理迁移到紧凑的可部署网络中。应用范围包括自动驾驶、导航、医学分割和远程感知。最相关的是,[20 (https://arxiv.org/html/2606.09919#bib.bib270)] 将语言推理蒸馏用于机载推理,但仍然依赖外部视觉推理模块,并且未解决不确定性感知感知问题。相比之下,我们将遮挡推理和机器人分配都蒸馏到一个端到端机载模型中,同时通过上下文自我审查来精炼伪标签。
**主动感知与不确定性量化。** 主动感知方法旨在选择信息量丰富的视点以减少歧义[4 (https://arxiv.org/html/2606.09919#bib.bib158),16 (https://arxiv.org/html/2606.09919#bib.bib32)],但通常依赖于启发式或未校准的置信度信号。共形预测提供分布自由的不确定性保证[22 (https://arxiv.org/html/2606.09919#bib.bib175),2 (https://arxiv.org/html/2606.09919#bib.bib178)],而选择性预测通过弃权提高可靠性[1 (https://arxiv.org/html/2606.09919#bib.bib83),6 (https://arxiv.org/html/2606.09919#bib.bib139)]。然而,共形方法产生的预测集难以直接用于规划,且选择性预测不解决弃权问题。我们则将两者结合在一个异构感知框架中,校准后的不确定性直接驱动机器人分配和主动感知。
## 3 方法论
我们在图2 (https://arxiv.org/html/2606.09919#S1.F2) 中提供了 Co-GLANCE 的可视化概览。Co-GLANCE 结合了上下文感知的遮挡分割(§3.1 (https://arxiv.org/html/2606.09919#S3.SS1),图2 Ⓐ (https://arxiv.org/html/2606.09919#S1.F2)①)、校准后的感知保证(§3.2 (https://arxiv.org/html/2606.09919#S3.SS2),图2 Ⓐ (https://arxiv.org/html/2606.09919#S1.F2)②⑤)和能力感知的机器人分配(§3.3 (https://arxiv.org/html/2606.09919#S3.SS3),图2 Ⓐ (https://arxiv.org/html/2606.09919#S1.F2)③),以在机载计算约束下解决可见的遮挡。低置信度检测(图2 Ⓐ (https://arxiv.org/html/2606.09919#S1.F2)④)触发主动感知(图2 Ⓐ (https://arxiv.org/html/2606.09919#S1.F2)⑥),直到确认高置信度观测(图2 Ⓐ (https://arxiv.org/html/2606.09919#S1.F2)⑤)。
我们定义:(1) **遮挡区域**:当前不可见的区域,因为某个物体位于该区域与活动视点之间。我们进一步要求遮挡区域足够大,以便能够从理论上隐藏一个任意姿势的人。(2) **平台分配标签**:编码哪个平台是解决遮挡所必需的,而不是当前距离最近或最方便的。标签空间为 `{ground, both, either}`,其中 `ground` 需要地面机器人,`both` 需要两个机器人,`either` 允许灵活分配。(3) **主动感知**:有意地将一个智能体派遣到某个视点,以减少关于模糊物体的身份不确定性[3 (https://arxiv.org/html/2606.09919#bib.bib5)]。
### 3.1 感知不确定性检测
参见图注:图3:感知不确定性检测:(1) VLM 带有自我审查的遮挡分割和机器人分配,(2) 知识蒸馏,(3) 使用蒸馏模型进行机载推理。
Co-GLANCE 将遮挡分割和平台分配从一个大 VLM 蒸馏到一个轻量级 YOLO-seg-nano 模型中,用于机载推理(图3 (https://arxiv.org/html/2606.09919#S3.F3))。VLM 被提示从空中 RGB 帧生成遮挡物关键词(图3 (https://arxiv.org/html/2606.09919#S3.F3)(1a)),这些关键词被传递给一个开放词汇分割模型以生成候选掩码(图3 (https://arxiv.org/html/2606.09919#S3.F3)(1b))。由于 VLM 无法可靠地预测其关键词将如何被落地,生成的掩码常常与预期区域不对齐,或者完全遗漏遮挡物。为解决这个问题,一个上下文自我审查阶段将候选掩码以多轮对话的方式呈现回 VLM,使其能够移除错误的掩码、精炼不对齐的区域、提出新关键词并分配平台标签(图3 (https://arxiv.org/html/2606.09919#S3.F3)(1c–d))。在这些伪标签上训练的蒸馏模型,单次前向传播即可完成遮挡分割和平台分配。完整的 VLM 提示和其他细节见附录 A (https://arxiv.org/html/2606.09919#A1)。
### 3.2 不确定性量化
Co-GLANCE 对遮挡分割和平台分配,以及人物检测应用了一个两阶段的不确定性量化方案。该方案对于两种预测类型是相同的。风险控制阶段通过选择性弃权[1 (https://arxiv.org/html/2606.09919#bib.bib83)]产生保证的单一预测(当置信度足够时);覆盖率控制阶段通过共形预测[2 (https://arxiv.org/html/2606.09919#bib.bib178)]对剩余部分提供校准后的集合预测,在主动感知进行中为其提供信息。两阶段不确定性量化方案的进一步细节见附录 B (https://arxiv.org/html/2606.09919#A2)。
#### 第一阶段 – 风险控制阶段
设 \((X_i, Y_i)_{i=1,\dots,n}\) 为独立同分布的样本-标签对,\(\hat{Y}(X_i) = \arg\max_y \hat{f}(X_i)\) 为模型预测,\(\hat{P}(X_i) = \max_y \hat{f}(X_i)\) 为其置信度。对于遮挡分割和分配,\(\hat{Y}(X_i)\) 是联合正确的掩码和分配标签;对于人物检测,\(\hat{Y}(X_i)\) 是正确的人物掩码。经验风险为:
\[\hat{R}(\lambda) = \frac{1}{n(\lambda)} \sum_{i=1}^{n} \mathbb{1}\{Y_i \neq \hat{Y}(X_i) \text{ and } \hat{P}(X_i) \ge \lambda\}\]
其中 \(n(\lambda) = \sum_{i=1}^{n} \mathbb{1}\{\hat{P}(X_i) \ge \lambda\}\)。将 \(\hat{R}(\lambda)\) 视为二项式随机变量,其置信上界为:
\[\hat{R}^+(\lambda) = \sup\{r : \text{BinomCDF}(\hat{R}(\lambda); n(\lambda), r) \ge \delta\}\]
我们在一个离散网格(固定序列检验)上选择 \(\hat{\lambda}\) 作为最后一个满足 \(\hat{R}^+(\lambda) \le \alpha\) 的值,从而得到:
\[\mathbb{P}\!\big(\mathbb{P}(Y_{\text{true}} = Y_{\text{pred}} \mid \hat{P}(X_{\text{test}}) \ge \hat{\lambda}) \ge 1 - \alpha\big) \ge 1 - \delta, \quad (1)\]
其中 \(\alpha\) 是风险容忍度,\(\delta\) 是置信参数,外层概率是在校准集上取的[1 (https://arxiv.org/html/2606.09919#bib.bib83)]。换言之:以至少 \(1 - \delta\) 的概率,所有高于 \(\hat{\lambda}\) 的预测以至少 \(1 - \alpha\) 的概率正确。高于 \(\hat{\lambda}\) 的预测用于决策制定;低于 \(\hat{\lambda}\) 的预测则进入第二阶段,并生成一个主动感知请求。
#### 第二阶段 – 覆盖率控制阶段
设 \((X_i, Y_i)_{i=1,\dots,n}\) 为独立同分布的校准样本,且 \(\hat{P}(X_i) < \hat{\lambda}\)。我们定义非一致性得分 \(S(X_i, Y_i) = 1 - \hat{f}_{Y_i}(X_i)\),其中值越高表示预测与标签之间的一致性越差,并计算校准分位数 \(\hat{q}\) 在水平 \(\lceil (n+1)(1 - \epsilon) \rceil / n\) 上。那么预测集为:
\[\hat{C}(X_{\text{test}}) = \{y : \hat{f}_y(X_{\text{test}}) \ge 1 - \hat{q}\}, \quad (2)\]
这给出了边际覆盖保证 \(\mathbb{P}[Y_{\text{test}} \in \hat{C}(X_{\text{test}})] \ge 1 - \epsilon\)[2 (https://arxiv.org/html/2606.09919#bib.bib178)],其中概率是在校准集和测试集上联合取的。这使得 Co-GLANCE 能够对所有模型输出进行预测。
### 3.3 不确定性解决
#### 机器人分配相似文章
LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
DynaFLIP: 通过三模态动力学引导的表征重新思考机器人感知
DynaFLIP 是一个动力学感知的多模态预训练框架,将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习,在分布外场景中取得了显著提升。
VisualClaw: 面向物理世界的实时个性化智能体
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
ActiveMimic: 基于主动感知的自我中心视频预训练
ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。