PlatonicNav:用柏拉图拓扑地图揭示导航中的语义对应

Hugging Face Daily Papers 论文

摘要

PlatonicNav 提出了一种免训练的具体化导航框架,该框架仅使用视觉语义地图和盲匹配来锚定语言目标,无需显式的跨模态训练即可实现跨任务和跨形态的泛化。

具体化视觉导航(Embodied visual navigation)要求智能体从原始感官输入中感知复杂环境并采取行动到达目标,它支撑着家庭服务机器人、辅助机器人以及大规模自主探索等广泛应用。然而,近期统一视觉与语言导航(VLN)和对象目标导航(ObjNav)的尝试仍停留在架构融合、多任务训练和大规模视觉语言预训练的层面,未深入探讨独立训练的视觉与语言编码器是否已共享共同的语义结构。此外,即使是以对象为中心的拓扑地图,仍通过显式的跨模态监督(如 CLIP 或大型视觉语言模型)来锚定语言目标,这导致一个问题:仅凭视觉构建的地图能否实现这种锚定?为应对这些挑战,我们将柏拉图表征假说(Platonic Representation Hypothesis)拓展至具体化导航,并将纯视觉 ObjNav、跨模态 ObjNav 和 VLN 重新诠释为访问同一以对象为中心的语义流形的三种不同接口。我们进一步提出 PlatonicNav,这是一种免训练框架,其柏拉图拓扑地图(Platonic Topological Map)融合了来自自监督视觉编码器的几何与语义节点距离,并通过盲匹配(无需任何配对视觉语言数据)来锚定语言目标。在 HM3D-IIN、OVON 及 MP3D 上的 R2R-CE 等模拟基准测试,以及部署至 Unitree Go2 的真实实验中,广泛的结果表明 PlatonicNav 无需显式的跨模态训练即可跨任务、模态和形态实现泛化。代码:https://github.com/AIGeeksGroup/PlatonicNav。网站:https://aigeeksgroup.github.io/PlatonicNav。
查看原文
查看缓存全文

缓存时间: 2026/06/03 03:35

论文页面 - PlatonicNav:利用柏拉图式拓扑地图揭示导航中的语义对应关系

来源:https://huggingface.co/papers/2606.01788

摘要

一种无需训练的具身导航框架,采用纯视觉方法创建语义地图,并通过盲匹配实现语言目标落地,无需配对视觉语言数据。

具身视觉导航(https://huggingface.co/papers?q=Embodied%20visual%20navigation)是智能体感知复杂环境,并根据原始感官输入行动以到达目标的技术,支撑着家庭服务机器人、辅助机器人和大规模自主探索等多种应用。然而,近期将视觉语言导航(https://huggingface.co/papers?q=vision-and-language%20navigation)(VLN(https://huggingface.co/papers?q=VLN))与目标物体导航(https://huggingface.co/papers?q=object%20goal%20navigation)(ObjNav)统一起来的尝试,仍停留在架构融合、混合任务训练和大规模视觉语言预训练层面,并未检验独立训练的视觉和语言编码器是否已共享共同的语义结构。此外,即使是以物体为中心拓扑地图,其语言目标落地仍需借助显式跨模态监督(https://huggingface.co/papers?q=cross-modal%20supervision),例如CLIP(https://huggingface.co/papers?q=CLIP)或大型视觉语言模型(https://huggingface.co/papers?q=large%20vision-language%20models),因此,这种落地能否完全基于纯视觉构建的地图实现,仍悬而未决。为应对这些挑战,我们将柏拉图表示假说(Platonic Representation Hypothesis)(https://huggingface.co/papers?q=Platonic%20Representation%20Hypothesis)拓展至具身导航领域,并将纯视觉ObjNav(https://huggingface.co/papers?q=vision-only%20ObjNav)、跨模态ObjNav(https://huggingface.co/papers?q=cross-modal%20ObjNav)和VLN(https://huggingface.co/papers?q=VLN)重新定义为同一物体中心语义流形(https://huggingface.co/papers?q=semantic%20manifold)的三种不同接口。我们进一步提出PlatonicNav——一种无需训练的框架,其Platonic Topological Map(https://huggingface.co/papers?q=Platonic%20Topological%20Map)融合了来自自监督视觉编码器(https://huggingface.co/papers?q=self-supervised%20visual%20encoder)的几何距离和语义节点距离,并通过盲匹配(https://huggingface.co/papers?q=blind%20matching)实现语言目标落地,无需任何配对视觉语言数据。在HM3D-IIN、OVON和R2R-CE(基于MP3D)等模拟基准以及Unitree Go2实体部署上的大量实验表明,PlatonicNav无需显式跨模态训练,即可跨任务、跨模态、跨载体泛化。代码:https://github.com/AIGeeksGroup/PlatonicNav。网站:https://aigeeksgroup.github.io/PlatonicNav。

查看arXiv页面(https://arxiv.org/abs/2606.01788)查看PDF(https://arxiv.org/pdf/2606.01788)项目页面(https://aigeeksgroup.github.io/PlatonicNav/)GitHub1(https://github.com/AIGeeksGroup/PlatonicNav)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01788)

在您的智能体中获取此论文:

hf papers read 2606.01788

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

未找到关联此论文的模型

请在模型README.md中引用arxiv.org/abs/2606.01788以从本页链接到它。

引用此论文的数据集0

未找到关联此论文的数据集

请在数据集README.md中引用arxiv.org/abs/2606.01788以从本页链接到它。

引用此论文的Space0

未找到关联此论文的Space

请在Space README.md中引用arxiv.org/abs/2606.01788以从本页链接到它。

包含此论文的收藏集1

相似文章

几何至关重要:用于学习语义对应的3D基础先验

Hugging Face Daily Papers

本文介绍了一个后训练框架,利用SAM3D的3D先验来改进2D基础特征中的语义对应,解决了左右混淆和重复部分等问题。该方法使用实例特定的3D重建,无需姿态注释或球面几何捷径。