标签
PlatonicNav 提出了一种免训练的具体化导航框架,该框架仅使用视觉语义地图和盲匹配来锚定语言目标,无需显式的跨模态训练即可实现跨任务和跨形态的泛化。
AtlasVA是一个面向视觉语言模型Agent的无教师视觉技能记忆框架,它利用空间热图、视觉示例和符号文本技能来改善长时域任务中的空间决策,在多个基准测试中优于基线方法。