GIST: 通过智能语义拓扑的多模态知识提取与空间定位

arXiv cs.AI 2026/04/20 04:00 论文

摘要

GIST 是一个多模态知识提取管道，将移动点云数据转换为语义注释的导航拓扑结构，用于密集环境，支持语义搜索、定位和自然语言路由，在真实场景评估中实现 80% 的导航成功率。

arXiv:2604.15495v1 公告类型：新摘要：在零售店、仓库和医院等复杂密集环境中导航对人类和具身 AI 提出了重大的空间定位挑战。在这些空间中，由于物品的准静态特性，密集视觉特征很快会过时，长尾语义分布对传统计算机视觉构成了挑战。虽然视觉语言模型（VLM）帮助辅助系统在语义丰富的空间中导航，但它们在杂乱环境中的空间定位仍存在困难。我们提出了 GIST（基础智能语义拓扑），一个多模态知识提取管道，可将消费级移动点云转换为语义注释的导航拓扑。我们的架构将场景精炼为 2D 占用图，提取其拓扑布局，并通过智能关键帧和语义选择叠加轻量级语义层。我们通过关键的下游人-AI 交互任务展示了这种结构化空间知识的多功能性：(1) 一个意图驱动的语义搜索引擎，在精确匹配失败时主动推断类别替代和区域；(2) 一个单样本语义定位器，实现 1.04 m top-5 平均平移误差；(3) 一个区域分类模块，将可行走的平面图分割为高级语义区域；(4) 一个视觉定位的指令生成器，将最优路径合成为以自我为中心、富含地标的自然语言路由。在多标准 LLM 评估中，GIST 优于基于序列的指令生成基线。最后，一项原位形成性评估（N=5）实现了 80% 的导航成功率，仅依靠语音线索，验证了该系统在通用设计中的能力。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:33

# GIST：通过智能语义拓扑实现多模态知识提取和空间定位

来源：https://arxiv.org/html/2604.15495

###### 摘要

在零售店、仓库、图书馆和医院等复杂、密集的环境中进行导航和搜索对人类和具身AI都构成了巨大的空间定位挑战。在这些环境中，由于物品的准静态特性，密集的视觉特征很快就会过时，长尾语义分布对传统计算机视觉方法构成了挑战。视觉-语言模型（VLM）已成为帮助辅助系统和机器人理解和导航语义丰富空间的流行范式，但它们在密集、混乱的准静态环境中的空间定位仍然存在困难。我们提出了 *GIST*（Grounded Intelligent Semantic Topology，有根智能语义拓扑），一个多模态知识提取管道，将消费级移动点云转换为语义注释导航拓扑。我们的架构将场景提炼为2D占用栅格，提取其拓扑布局，并通过智能关键帧和语义选择叠加轻量级语义层。我们通过关键的人机交互任务展示了这种结构化、语义丰富的空间知识的多功能性：（1）一个意图驱动的 *语义搜索* 引擎，在精确匹配失败时主动推断类别替代品和区域；（2）一个单样本 *语义定位器*，实现1.04 m的top-5平均平移误差；（3）一个 *区域分类* 模块，将可行走的平面图分割为高级语义区域；和（4）一个 *视觉定位指令生成器*，将最优路径合成为以自我中心、充满地标的自然语言路由。通过独立的多标准LLM评估协议评估，GIST优于导航指令生成基线。最后，原位形成性评估（N=5）获得80%的导航成功率，仅依赖语音提示，验证了该系统的通用设计能力。

导航、拓扑、语义地图、多模态数据、通用设计、交互系统

††ccs：计算方法论 空间和物理推理††ccs：计算方法论 自然语言生成††ccs：以人为中心的计算 无障碍设计††ccs：以人为中心的计算 普适和移动计算††ccs：以人为中心的计算 交互系统和工具

参考图表：一个方块图显示移动RGB-D数据通过物体提取和视觉-语言模型处理，创建语义拓扑地图，随后支持意图感知搜索、语义定位和自然语言路由。

图1。*GIST* 多模态知识提取架构。原始多模态输入（RGB-D和移动里程计）通过智能关键帧选择、代表性物体选择和VLM标注提炼为结构化空间知识。这种共享表示实现了强大的下游人机交互和自主系统任务，包括意图感知语义搜索、全局位姿定位和空间定位自然语言路由。

## 1. 引言

在密集、混乱的环境中进行导航和搜索对人类和自主具身AI都构成了重大的空间定位挑战。传统的制图技术捕捉几何自由空间，但它们无法表示人们依赖的语义结构用于搜索、定向和路线理解(5)。

在密集准静态环境中，导航在很大程度上依赖于语义地标和拓扑转变，而不仅仅是度量命令。空间认知的先前研究表明，当指令被分块为有意义的段并锚定到可识别的地标时，人们更有效地解释路线(Lovelace等人，1999；Klatzky，1998)。例如，"走过左边的小扁豆，然后向右转"比"向前走8.6米，然后向右转"更易操作且负担更低。

这些空间本质上是 *准静态* 的——空间中物体的分布、方向和数量在较长时间尺度上演变的环境，如杂货店货架上变化的产品库存或图书馆中移动的书籍。此外，正如我们3,500平方英尺的国际杂货店测试床所证明的那样，它们表现出极端的长尾文化特定、视觉相似物品分布，导致严重的感知混淆。最近的视觉-语言导航(VLN)框架在基准和合成域中表现良好(Krantz等人，2020；Chen等人，2024)，但在真实世界环境中始终表现不佳(Aghzal等人，2025；Wang等人，2025a；Windecker等人，2025)，其中目标语义可能被部分遮挡、视觉重复或在即时视图中不存在。

最近的指令生成框架，如NavComposer(He等人，2025)，是向可扩展数据生成迈出的重要一步，但它们针对视觉序列建模而不是以人为中心的空间交流进行了优化。在密集环境中，这导致方向通常依赖于瞬间场景内容，并且未能充分指定稳定的路线几何、明确的转向结构和持久的地标。

为了弥补这一差距，我们引入了 *GIST*（Grounded Intelligent Semantic Topology，有根智能语义拓扑），一个从单个消费级移动扫描中提取语义定位导航表示的端到端框架(图1)。GIST将RGB-D数据和里程计转换为2D占用栅格，在可行走空间上推导拓扑图，并通过关键帧选择、代表性物体选择和基于VLM的注释将语义标记的产品锚定到该图。生成的语义拓扑将确定性几何结构与更高级的语义推理分离，同时将两者保持在共享坐标系中。

这种结构化表示支持关键的人机交互任务：(1) *意图驱动搜索和缺失目标估计*，当语义地图上没有精确匹配时估计区域位置；(2) *语义定位*，一个单样本定位器，使用纯文本嵌入从单个智能手机图像估计代理的离散位姿(x,y,θ)；(3) *区域分类*覆盖可行走空间；和(4) *视觉定位空间路由*，将空间路径转换为视图独立的自然语言方向。我们的关键贡献是支持通过协调的、以人为中心的方法搜索、定位和通信的共享中间表示。

在15个真实世界场景中，我们证明了GIST的显式拓扑结构在多标准LLM评估中明显优于原始RGB序列基线，特别是当路线复杂性增加时。最后，原位生态形成性探针(N=5)使用仅生成的语音提示获得80%的导航成功率，提供了令人鼓舞的真实世界实用性初步证据。

## 2. 相关工作

*GIST* 便利了几项关键的人机交互和具身AI任务；以下小节介绍这些领域基础的相关工作。

### 2.1. 视觉-语言导航(VLN)

VLN要求具身代理解释自然语言指令并仅从视觉观察导航3D环境(Anderson等人，2018)。早期基准在离散的基于图的设置中操作，其中代理在全景视点之间传送(Qi等人，2020)。虽然VLN-CE(Krantz等人，2020)推向了需要低级运动控制的连续环境，但这些系统仍然假设高质量的指令已经提供。

自动化指令生成已出现以扩展VLN训练数据。早期说话人模型使用基于LSTM的网络将全景序列转换为方向(Fried等人，2018)，缺乏空间特异性。最近的模型如NavRAG(Wang等人，2025b)利用场景描述树提供细粒度背景。目标条件生成模型如GoViG(Wu等人，2025)尝试从仅第一人称观察和目标图像生成指令。NavComposer(He等人，2025)从RGB图像序列和离散行动迹线生成指令。但是，因为序列到序列方法绕过显式拓扑推理，它们在仅从图像推断路径几何时存在困难。这导致引用视觉显著但瞬间物体(例如，红色板条箱、购物车)的指令，并且无法可靠地指定明确的转向序列、确切的度量距离或宏级导航指令。

### 2.2. 准静态环境中的定位

粒子过滤定位方法(例如，AMCL(D. Fox，2001))仍然是板载机器人的标准。但是，它们对静态几何地图的依赖使它们在仓库和零售店等准静态环境中极易出错，其中本地语义波动即使全局几何保持恒定也是如此(Yin等人，2024)。

语义SLAM系统(Goswami等人，2023；Zimmerman等人，2023)通常假设地标稳定性，这一假设在真实世界准静态环境中失败，其中物体频繁移动或数量波动。最近的概率方法如 *ShelfAware*(Agrawal等人，2025)将货架语义建模为物体计数的统计分布以处理这些变化。但是，它们严格依赖于低级视觉特征，这些特征通常无法区分语义不同但视觉相似的物品(例如，糖袋、盐或面粉)。深度视觉定位方法(Dong等人，2025；Loiseau等人，2025)和隐式神经表示(Kuang等人，2023)展示了令人印象深刻的准确性，但需要服务器级计算，排除了在可穿戴边缘设备上的实时使用。GIST通过利用单样本、基于文本嵌入的语义克服了这些限制，在轻量级硬件上实现即时全局定位。

### 2.3. 辅助引导系统

在大型零售空间或仓库中导航对视觉障碍人士提出了关键挑战，涉及运动空间的宏观导航和触觉空间的微观导航(Gharpure和Kulyukin，2008)。

**宏观导航和产品搜索：** 最近的工作主要关注店内导航(Kulyukin和Kutiyanawala，2010；Kulyukin等人，2005；Kulyukin和Gharpure，2006)。依赖环境增强的解决方案，如RFID标签(López-de-Ipiña等人，2011)或蓝牙信标，引入了高维护开销和采用障碍。对于产品识别，使用固定类对象检测器(Feng等人，2020)或条形码扫描(Google，2022；Nicholson等人，2009)的现有技术对庞大的长尾零售物品量(NielsenIQ，2019)是不实际的。虽然研究人员探索了对话代理(Kamikubo等人，2024；Kanwa等人，2024)和"最后几米"寻路问题(Saha等人，2019)，但这些系统通常仍然依赖BLE信标，突出了对无仪器、可扩展语义搜索的关键需求。

**操作指导和社会动态：** 一旦用户在产品附近，操作指导帮助他们找到感兴趣的区域(Vázquez和Steinfeld，2014；Bonani等人，2018)。众包协助如Be My Eyes(Eyes，2022)或VizWiz(Bigham等人，2010)依赖于人类可用性。一些研究人员通过为货架产品检索提供语言操作指导来关注产品检索子任务(Agrawal等人，2023；Agrawal，2023)。但是，这些系统本质上假设用户已经在正确的货架前完美定位(Zientara等人，2017)。GIST通过创建关注于通过搜索所需目标和估计系统当前位姿来解决先决条件运动导航问题的中间空间知识来弥补这一差距。

## 3. 多模态知识提取

我们的离线管道在没有手动注释的情况下将消费级移动RGB-D数据转换为可重用的语义拓扑。

### 3.1. 移动数据到2D占用栅格

我们使用配备LiDAR的消费级移动设备捕捉了真实世界的3,500平方英尺国际杂货店。一次14.5分钟的遍历产生了52,006个RGB-D帧，这些帧被6×6×子采样到8,668帧(~10 fps)以及6-DoF ARKit视觉-惯性里程计。为了确保轻量级处理和下游可扩展性，我们明确避免计算重型的经典SLAM后端。相反，我们通过对原始移动点云应用高度切片来投影2D占用栅格(0.05 m/pixel)。

### 3.2. 信息关键帧和物体提取

为了减少多模态输入处理和注释成本，我们首先执行关键帧选择。每个完整RGB帧通过DINOv3(vitb16，768维)嵌入。顺序余弦过滤器仅保留其与先前接受的关键帧的相似性低于0.85阈值的帧，将序列压缩为660个视觉上不同的关键帧(92.4%的帧减少)以消除冗余。

每个关键帧由在SKU-110K数据集(Goldman等人，2019)上微调的YOLOv9模型处理，用于密集货架产品。由于紧密堆积的零售货架为重复产品生成了极端密度的边界框，我们过滤检测以仅保留最大化图像质量和语义多样性的裁剪。具体来说，我们计算每个裁剪的拉普拉斯方差(清晰度)

GIST: 通过智能语义拓扑的多模态知识提取与空间定位

相似文章

检索、整合与综合：空间-语义接地潜层视觉推理

在统一的多模态理解与生成中唤醒空间智能

从生成视角探索空间智能

SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

GeoStack：一种用于VLMs中拟阿贝尔知识组合的框架

提交意见反馈