Qwen-RobotNav 技术报告:为自主导航系统设计的可扩展导航模型

Hugging Face Daily Papers 论文

摘要

Qwen-RobotNav 是一种可扩展的导航模型,通过参数化接口实现动态任务模式和观测参数,在多任务训练和零样本泛化到真实机器人领域达到了最先进水平。

自主导航系统需要一个基础导航模型,其观测策略可以在推理时从外部重新配置,因为指令跟随、目标搜索、目标跟踪和自动驾驶共享相同的感知-规划主干,但却需要不同的策略来处理视觉流。我们提出 Qwen-RobotNav,一个基于 Qwen-RobotNav 构建的可扩展导航模型,通过一个具有两个互补维度的参数化接口来解决这一问题:多个任务模式来选择导航行为,以及可控的观测参数(例如 token 预算、每摄像头权重)来控制视觉历史如何编码。通过在训练时对所有参数进行随机化,Qwen-RobotNav 能够适应任何推理时的配置,而无需对 Qwen-RobotNav 主干进行任何架构修改。我们在 1560 万个样本上训练 Qwen-RobotNav;与视觉语言数据的联合训练防止了仅在轨迹数据上训练时出现的退化到反应性动作序列映射器。参数化接口也使 Qwen-RobotNav 成为自主系统的天然构建模块:对于长时域场景,上层规划器将目标分解为子任务,并在中途动态切换 Qwen-RobotNav 的任务模式和上下文策略,通过重复调用同一模型来组合复杂行为。大量实验表明,Qwen-RobotNav 在主要导航基准测试中取得了新的最先进结果。该模型在从 2B 到 8B 参数规模上展现出良好的可扩展性,联合多任务训练形成跨任务家族共享的空间规划基础,并在多样化的真实机器人环境中展示了强大的零样本泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/06/29 22:05

论文页面 - Qwen-RobotNav技术报告:面向智能体导航系统的可扩展导航模型

来源:https://huggingface.co/papers/2606.18112 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

Qwen-RobotNav 是一种可扩展的导航模型,具有参数化接口,支持动态任务模式和观测参数,通过多任务训练和在真实机器人上的零样本泛化达到最先进性能。

智能体导航系统需要一个基础导航模型(https://huggingface.co/papers?q=navigation%20model),其观测策略可以在推理时从外部重新配置,因为指令跟随、物体搜索、目标跟踪和自主驾驶共享相同的感知-规划主干,却需要截然不同的策略来消费视觉流。我们提出 Qwen-RobotNav,这是一个基于 Qwen-RobotNav 构建的可扩展导航模型(https://huggingface.co/papers?q=navigation%20model),通过一个参数化接口(https://huggingface.co/papers?q=parameterised%20interface)解决这一问题,该接口包含两个互补维度:选择导航行为的多个任务模式(https://huggingface.co/papers?q=task%20modes),以及控制视觉历史如何编码的可调观测参数(https://huggingface.co/papers?q=observation%20parameters)(例如,token预算、每个相机的权重)。通过在训练时对所有参数进行随机化,Qwen-RobotNav 对任何推理时的配置都很鲁棒,无需对 Qwen-RobotNav 主干进行任何架构修改。我们在 1560 万样本上训练 Qwen-RobotNav;与视觉-语言数据(https://huggingface.co/papers?q=vision-language%20data)共训练防止了仅在轨迹数据上训练(https://huggingface.co/papers?q=trajectory-only%20training)时观察到的退化为反应式动作序列映射器的现象。参数化接口(https://huggingface.co/papers?q=parameterised%20interface)也使 Qwen-RobotNav 成为智能体系统的天然构建块:对于长程场景,上层规划器将目标分解为子任务,并在一个场景中动态切换 Qwen-RobotNav 的任务模式和上下文策略,通过反复调用同一模型组成复杂行为。大量实验表明,Qwen-RobotNav 在主要导航基准上取得了新的最先进结果。模型展现出从 2B 到 8B 参数的有利扩展性,联合多任务训练(https://huggingface.co/papers?q=multi-task%20training)发展出一个跨任务家族迁移的共享空间规划基底(https://huggingface.co/papers?q=spatial-planning%20substrate),并展示了在多样环境中对真实机器人的强大零样本泛化能力。

查看 arXiv 页面(https://arxiv.org/abs/2606.18112)查看 PDF(https://arxiv.org/pdf/2606.18112)项目页面(https://qwen.ai/blog?id=qwen-robotnav)GitHub0(https://github.com/QwenLM/Qwen-RobotNav)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.18112)

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.18112 以从此页面链接。

引用该论文的数据集1

cy0307/awesome-egocentric-atlas 查看器• 更新于5天前 • 638 • 851 • 2 (https://huggingface.co/datasets/cy0307/awesome-egocentric-atlas)

引用该论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.18112 以从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

Qwen-RobotManip技术报告:对齐实现机器人操控基础模型规模化

Hugging Face Daily Papers

介绍Qwen-RobotManip,一个用于机器人操控的视觉-语言-动作基础模型,通过在表征、运动和行为维度上的统一对齐实现泛化,从而能够在多样化的数据源上进行大规模训练。它在多个分布外基准测试中优于先前的最先进模型,并展现出涌现能力,如零样本指令跟随和跨本体迁移。

Qwen的具身世界建模 (28分钟阅读)

TLDR AI

Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。

Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模

Hugging Face Daily Papers

Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。

Qwen/Qwen-AgentWorld-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。