Qwen-RobotNav 技术报告：为自主导航系统设计的可扩展导航模型

Hugging Face Daily Papers 2026/06/18 00:00 论文

摘要

Qwen-RobotNav 是一种可扩展的导航模型，通过参数化接口实现动态任务模式和观测参数，在多任务训练和零样本泛化到真实机器人领域达到了最先进水平。

自主导航系统需要一个基础导航模型，其观测策略可以在推理时从外部重新配置，因为指令跟随、目标搜索、目标跟踪和自动驾驶共享相同的感知-规划主干，但却需要不同的策略来处理视觉流。我们提出 Qwen-RobotNav，一个基于 Qwen-RobotNav 构建的可扩展导航模型，通过一个具有两个互补维度的参数化接口来解决这一问题：多个任务模式来选择导航行为，以及可控的观测参数（例如 token 预算、每摄像头权重）来控制视觉历史如何编码。通过在训练时对所有参数进行随机化，Qwen-RobotNav 能够适应任何推理时的配置，而无需对 Qwen-RobotNav 主干进行任何架构修改。我们在 1560 万个样本上训练 Qwen-RobotNav；与视觉语言数据的联合训练防止了仅在轨迹数据上训练时出现的退化到反应性动作序列映射器。参数化接口也使 Qwen-RobotNav 成为自主系统的天然构建模块：对于长时域场景，上层规划器将目标分解为子任务，并在中途动态切换 Qwen-RobotNav 的任务模式和上下文策略，通过重复调用同一模型来组合复杂行为。大量实验表明，Qwen-RobotNav 在主要导航基准测试中取得了新的最先进结果。该模型在从 2B 到 8B 参数规模上展现出良好的可扩展性，联合多任务训练形成跨任务家族共享的空间规划基础，并在多样化的真实机器人环境中展示了强大的零样本泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/06/29 22:05

论文页面 - Qwen-RobotNav技术报告：面向智能体导航系统的可扩展导航模型

来源：https://huggingface.co/papers/2606.18112 作者：

摘要

Qwen-RobotNav 是一种可扩展的导航模型，具有参数化接口，支持动态任务模式和观测参数，通过多任务训练和在真实机器人上的零样本泛化达到最先进性能。

智能体导航系统需要一个基础导航模型（https://huggingface.co/papers?q=navigation%20model），其观测策略可以在推理时从外部重新配置，因为指令跟随、物体搜索、目标跟踪和自主驾驶共享相同的感知-规划主干，却需要截然不同的策略来消费视觉流。我们提出 Qwen-RobotNav，这是一个基于 Qwen-RobotNav 构建的可扩展导航模型（https://huggingface.co/papers?q=navigation%20model），通过一个参数化接口（https://huggingface.co/papers?q=parameterised%20interface）解决这一问题，该接口包含两个互补维度：选择导航行为的多个任务模式（https://huggingface.co/papers?q=task%20modes），以及控制视觉历史如何编码的可调观测参数（https://huggingface.co/papers?q=observation%20parameters）（例如，token预算、每个相机的权重）。通过在训练时对所有参数进行随机化，Qwen-RobotNav 对任何推理时的配置都很鲁棒，无需对 Qwen-RobotNav 主干进行任何架构修改。我们在 1560 万样本上训练 Qwen-RobotNav；与视觉-语言数据（https://huggingface.co/papers?q=vision-language%20data）共训练防止了仅在轨迹数据上训练（https://huggingface.co/papers?q=trajectory-only%20training）时观察到的退化为反应式动作序列映射器的现象。参数化接口（https://huggingface.co/papers?q=parameterised%20interface）也使 Qwen-RobotNav 成为智能体系统的天然构建块：对于长程场景，上层规划器将目标分解为子任务，并在一个场景中动态切换 Qwen-RobotNav 的任务模式和上下文策略，通过反复调用同一模型组成复杂行为。大量实验表明，Qwen-RobotNav 在主要导航基准上取得了新的最先进结果。模型展现出从 2B 到 8B 参数的有利扩展性，联合多任务训练（https://huggingface.co/papers?q=multi-task%20training）发展出一个跨任务家族迁移的共享空间规划基底（https://huggingface.co/papers?q=spatial-planning%20substrate），并展示了在多样环境中对真实机器人的强大零样本泛化能力。

查看 arXiv 页面（https://arxiv.org/abs/2606.18112）查看 PDF（https://arxiv.org/pdf/2606.18112）项目页面（https://qwen.ai/blog?id=qwen-robotnav）GitHub0（https://github.com/QwenLM/Qwen-RobotNav）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.18112）

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.18112 以从此页面链接。

引用该论文的数据集1

cy0307/awesome-egocentric-atlas 查看器• 更新于5天前 • 638 • 851 • 2 (https://huggingface.co/datasets/cy0307/awesome-egocentric-atlas)

引用该论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.18112 以从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以从此页面链接。

Qwen-RobotNav 技术报告：为自主导航系统设计的可扩展导航模型

论文页面 - Qwen-RobotNav技术报告：面向智能体导航系统的可扩展导航模型

摘要

引用该论文的模型0

引用该论文的数据集1

cy0307/awesome-egocentric-atlas 查看器• 更新于5天前 • 638 • 851 • 2 (https://huggingface.co/datasets/cy0307/awesome-egocentric-atlas)

引用该论文的 Space0

包含该论文的收藏0

相似文章

Qwen-RobotManip技术报告：对齐实现机器人操控基础模型规模化

Qwen的具身世界建模 (28分钟阅读)

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

Qwen-VLA：统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

Qwen/Qwen-AgentWorld-35B-A3B

提交意见反馈