用于机器人操作的 World Value Models
摘要
本文提出了World Value Model (WVM),一种通用机器人价值模型,它将世界模型与价值估计相结合,以准确评估任务进展,并从混合质量数据中改进机器人策略学习,在标准基准和新的次优数据基准上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/06/24 05:46
论文页面 - 面向机器人操作的世界价值模型
来源:https://huggingface.co/papers/2606.24742
摘要
世界价值模型将世界模型与价值估计相结合,提供精确的任务进展评估,并提升机器人从混合质量数据中进行策略学习的能力。
通用价值模型在从大规模、混合质量数据中扩展机器人策略学习方面发挥着关键作用。从数学角度看,准确的价值估计需要深层次的时间理解,这要求模型既能基于历史上下文建立当前信念,又能对未来结果进行规划。然而,现有的大多数机器人价值模型都建立在视觉-语言模型(VLM)骨干网络上,这些骨干网络主要基于静态或时间稀疏的视觉观察进行预训练,缺乏价值估计所需的时间建模能力。与VLM不同,世界模型天然擅长时间建模和未来规划,因此是学习可泛化价值函数的理想基础。受这一洞察驱动,我们将世界模型与价值估计结合,构建了一种新的通用机器人价值模型——世界价值模型(WVM),该模型能够提供准确的任务进展评估,以衡量数据质量。在标准基准上,WVM取得了价值序相关性(VOC)的最先进结果。为了补充仅包含专家数据的标准评估套件,我们进一步引入了Suboptimal-Value-Bench,这是一个多实体基准测试,包含800条带有高保真人工标注帧的次优轨迹。我们的评估表明,WVM在Suboptimal-Value-Bench上仍保持最先进性能,证明了其在处理专家数据和次优数据时的鲁棒性。当部署于策略学习时,WVM在模拟和真实环境部署中均能提升多种策略提取方法的操作性能,为从混合质量数据中学习提供了稳健的指导。
查看 arXiv 页面(https://arxiv.org/abs/2606.24742)查看 PDF(https://arxiv.org/pdf/2606.24742)项目页面(https://zh1hao.wang/wvm/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24742)
引用该论文的模型 0
暂无模型链接该论文
请在模型 README.md 中引用 arxiv.org/abs/2606.24742,从而从本页面建立链接。
引用该论文的数据集 0
暂无数据集链接该论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.24742,从而从本页面建立链接。
引用该论文的 Spaces 0
暂无 Space 链接该论文
请在 Space README.md 中引用 arxiv.org/abs/2606.24742,从而从本页面建立链接。
包含该论文的收藏夹 0
暂无收藏夹包含该论文
请将该论文添加到一个收藏夹(https://huggingface.co/new-collection),从而从本页面建立链接。
相似文章
WEAVER:更好、更快、更长 —— 一种有效的机器人操作世界模型
WEAVER是一种用于机器人操作的多视角世界模型,通过流匹配损失实现了高保真度、一致性和效率,在策略评估、策略改进和测试时规划中表现出色,并在真实世界中取得了显著改进。
机器人学习中的世界模型:全面综述
本综述全面回顾了机器人学习中世界模型的文献,涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
RobotValues:评估人类价值观冲突时的家用机器人
介绍了RobotValues,一个包含1万个价值观冲突场景的基准测试,用于评估家用机器人规划器。结果表明,视觉语言模型表现出默认的价值观偏好,并且在被要求优先考虑冲突的价值观时,有80%的情况无法覆盖其默认行为。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。