Qwen-RobotNav 技术报告:为自主导航系统设计的可扩展导航模型
摘要
Qwen-RobotNav 是一种可扩展的导航模型,通过参数化接口实现动态任务模式和观测参数,在多任务训练和零样本泛化到真实机器人领域达到了最先进水平。
查看缓存全文
缓存时间: 2026/06/29 22:05
论文页面 - Qwen-RobotNav技术报告:面向智能体导航系统的可扩展导航模型
来源:https://huggingface.co/papers/2606.18112 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Qwen-RobotNav 是一种可扩展的导航模型,具有参数化接口,支持动态任务模式和观测参数,通过多任务训练和在真实机器人上的零样本泛化达到最先进性能。
智能体导航系统需要一个基础导航模型(https://huggingface.co/papers?q=navigation%20model),其观测策略可以在推理时从外部重新配置,因为指令跟随、物体搜索、目标跟踪和自主驾驶共享相同的感知-规划主干,却需要截然不同的策略来消费视觉流。我们提出 Qwen-RobotNav,这是一个基于 Qwen-RobotNav 构建的可扩展导航模型(https://huggingface.co/papers?q=navigation%20model),通过一个参数化接口(https://huggingface.co/papers?q=parameterised%20interface)解决这一问题,该接口包含两个互补维度:选择导航行为的多个任务模式(https://huggingface.co/papers?q=task%20modes),以及控制视觉历史如何编码的可调观测参数(https://huggingface.co/papers?q=observation%20parameters)(例如,token预算、每个相机的权重)。通过在训练时对所有参数进行随机化,Qwen-RobotNav 对任何推理时的配置都很鲁棒,无需对 Qwen-RobotNav 主干进行任何架构修改。我们在 1560 万样本上训练 Qwen-RobotNav;与视觉-语言数据(https://huggingface.co/papers?q=vision-language%20data)共训练防止了仅在轨迹数据上训练(https://huggingface.co/papers?q=trajectory-only%20training)时观察到的退化为反应式动作序列映射器的现象。参数化接口(https://huggingface.co/papers?q=parameterised%20interface)也使 Qwen-RobotNav 成为智能体系统的天然构建块:对于长程场景,上层规划器将目标分解为子任务,并在一个场景中动态切换 Qwen-RobotNav 的任务模式和上下文策略,通过反复调用同一模型组成复杂行为。大量实验表明,Qwen-RobotNav 在主要导航基准上取得了新的最先进结果。模型展现出从 2B 到 8B 参数的有利扩展性,联合多任务训练(https://huggingface.co/papers?q=multi-task%20training)发展出一个跨任务家族迁移的共享空间规划基底(https://huggingface.co/papers?q=spatial-planning%20substrate),并展示了在多样环境中对真实机器人的强大零样本泛化能力。
查看 arXiv 页面(https://arxiv.org/abs/2606.18112)查看 PDF(https://arxiv.org/pdf/2606.18112)项目页面(https://qwen.ai/blog?id=qwen-robotnav)GitHub0(https://github.com/QwenLM/Qwen-RobotNav)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.18112)
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.18112 以从此页面链接。
引用该论文的数据集1
cy0307/awesome-egocentric-atlas 查看器• 更新于5天前 • 638 • 851 • 2 (https://huggingface.co/datasets/cy0307/awesome-egocentric-atlas)
引用该论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.18112 以从此页面链接。
包含该论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
Qwen-RobotManip技术报告:对齐实现机器人操控基础模型规模化
介绍Qwen-RobotManip,一个用于机器人操控的视觉-语言-动作基础模型,通过在表征、运动和行为维度上的统一对齐实现泛化,从而能够在多样化的数据源上进行大规模训练。它在多个分布外基准测试中优于先前的最先进模型,并展现出涌现能力,如零样本指令跟随和跨本体迁移。
Qwen的具身世界建模 (28分钟阅读)
Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
Qwen/Qwen-AgentWorld-35B-A3B
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。