PlatonicNav:用柏拉图拓扑地图揭示导航中的语义对应
摘要
PlatonicNav 提出了一种免训练的具体化导航框架,该框架仅使用视觉语义地图和盲匹配来锚定语言目标,无需显式的跨模态训练即可实现跨任务和跨形态的泛化。
查看缓存全文
缓存时间: 2026/06/03 03:35
论文页面 - PlatonicNav:利用柏拉图式拓扑地图揭示导航中的语义对应关系
来源:https://huggingface.co/papers/2606.01788
摘要
一种无需训练的具身导航框架,采用纯视觉方法创建语义地图,并通过盲匹配实现语言目标落地,无需配对视觉语言数据。
具身视觉导航(https://huggingface.co/papers?q=Embodied%20visual%20navigation)是智能体感知复杂环境,并根据原始感官输入行动以到达目标的技术,支撑着家庭服务机器人、辅助机器人和大规模自主探索等多种应用。然而,近期将视觉语言导航(https://huggingface.co/papers?q=vision-and-language%20navigation)(VLN(https://huggingface.co/papers?q=VLN))与目标物体导航(https://huggingface.co/papers?q=object%20goal%20navigation)(ObjNav)统一起来的尝试,仍停留在架构融合、混合任务训练和大规模视觉语言预训练层面,并未检验独立训练的视觉和语言编码器是否已共享共同的语义结构。此外,即使是以物体为中心拓扑地图,其语言目标落地仍需借助显式跨模态监督(https://huggingface.co/papers?q=cross-modal%20supervision),例如CLIP(https://huggingface.co/papers?q=CLIP)或大型视觉语言模型(https://huggingface.co/papers?q=large%20vision-language%20models),因此,这种落地能否完全基于纯视觉构建的地图实现,仍悬而未决。为应对这些挑战,我们将柏拉图表示假说(Platonic Representation Hypothesis)(https://huggingface.co/papers?q=Platonic%20Representation%20Hypothesis)拓展至具身导航领域,并将纯视觉ObjNav(https://huggingface.co/papers?q=vision-only%20ObjNav)、跨模态ObjNav(https://huggingface.co/papers?q=cross-modal%20ObjNav)和VLN(https://huggingface.co/papers?q=VLN)重新定义为同一物体中心语义流形(https://huggingface.co/papers?q=semantic%20manifold)的三种不同接口。我们进一步提出PlatonicNav——一种无需训练的框架,其Platonic Topological Map(https://huggingface.co/papers?q=Platonic%20Topological%20Map)融合了来自自监督视觉编码器(https://huggingface.co/papers?q=self-supervised%20visual%20encoder)的几何距离和语义节点距离,并通过盲匹配(https://huggingface.co/papers?q=blind%20matching)实现语言目标落地,无需任何配对视觉语言数据。在HM3D-IIN、OVON和R2R-CE(基于MP3D)等模拟基准以及Unitree Go2实体部署上的大量实验表明,PlatonicNav无需显式跨模态训练,即可跨任务、跨模态、跨载体泛化。代码:https://github.com/AIGeeksGroup/PlatonicNav。网站:https://aigeeksgroup.github.io/PlatonicNav。
查看arXiv页面(https://arxiv.org/abs/2606.01788)查看PDF(https://arxiv.org/pdf/2606.01788)项目页面(https://aigeeksgroup.github.io/PlatonicNav/)GitHub1(https://github.com/AIGeeksGroup/PlatonicNav)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01788)
在您的智能体中获取此论文:
hf papers read 2606.01788
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
未找到关联此论文的模型
请在模型README.md中引用arxiv.org/abs/2606.01788以从本页链接到它。
引用此论文的数据集0
未找到关联此论文的数据集
请在数据集README.md中引用arxiv.org/abs/2606.01788以从本页链接到它。
引用此论文的Space0
未找到关联此论文的Space
请在Space README.md中引用arxiv.org/abs/2606.01788以从本页链接到它。
包含此论文的收藏集1
相似文章
人脑中的柏拉图式表示:通用几何的无监督复原
本文研究了是否可以通过无监督几何方法对齐不同被试视觉皮层的fMRI表示,发现了个体间近似等距结构的证据,将柏拉图式表示假说扩展到人脑。
GIST: 通过智能语义拓扑的多模态知识提取与空间定位
GIST 是一个多模态知识提取管道,将移动点云数据转换为语义注释的导航拓扑结构,用于密集环境,支持语义搜索、定位和自然语言路由,在真实场景评估中实现 80% 的导航成功率。
通过物理交互涌现的世界模型语义表征,无需语言监督
本文表明,通过随机物理探索训练世界模型,能够在不依赖任何语言监督的情况下,使潜在表征编码出空间语义结构(方向和位置),突显物理几何作为组织原则。
MARCO:探索语义对应中未见空间的航行器
MARCO 提出一种轻量高速的语义对应模型,通过由粗到精的目标与自蒸馏框架结合 DINOv2,在未知关键点上也达到 SOTA 精度与泛化能力。
几何至关重要:用于学习语义对应的3D基础先验
本文介绍了一个后训练框架,利用SAM3D的3D先验来改进2D基础特征中的语义对应,解决了左右混淆和重复部分等问题。该方法使用实例特定的3D重建,无需姿态注释或球面几何捷径。