用于机器人操作的 World Value Models

Hugging Face Daily Papers 论文

摘要

本文提出了World Value Model (WVM),一种通用机器人价值模型,它将世界模型与价值估计相结合,以准确评估任务进展,并从混合质量数据中改进机器人策略学习,在标准基准和新的次优数据基准上取得了最先进的结果。

通用价值模型在从大规模混合质量数据中扩展机器人策略学习方面发挥着关键作用。从数学上讲,准确的价值估计需要深层的时间理解,要求模型既能利用历史背景来锚定当前信念,又能规划未来结果。然而,大多数现有的机器人价值模型构建在视觉语言模型(VLM)骨干上,这些模型主要在静态或时间稀疏的视觉观察上预训练,缺乏价值估计所需的时间建模能力。与VLM不同,世界模型天生擅长时间建模和未来规划,使其成为学习可泛化价值函数的理想基础。受此洞察驱动,我们将世界模型与价值估计相结合,构建了一种新的通用机器人价值模型——World Value Model (WVM),它可以提供准确的任务进展来评估数据质量。在标准基准上,WVM实现了最先进的(SOTA)价值顺序相关性(VOC)结果。作为对仅包含专家数据的标准评估套件的补充,我们进一步引入了Suboptimal-Value-Bench,这是一个多实体基准,包含800条次优轨迹,具有高保真、人工标注的帧注解。我们的评估表明,WVM在Suboptimal-Value-Bench上保持了SOTA性能,证明了其在处理专家数据和次优数据时的鲁棒性。当部署用于策略学习时,WVM在模拟和真实世界部署中,通过多种策略提取方法提升了操作性能,为从混合质量数据中学习提供了稳健的指导。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - 面向机器人操作的世界价值模型

来源:https://huggingface.co/papers/2606.24742

摘要

世界价值模型将世界模型与价值估计相结合,提供精确的任务进展评估,并提升机器人从混合质量数据中进行策略学习的能力。

通用价值模型在从大规模、混合质量数据中扩展机器人策略学习方面发挥着关键作用。从数学角度看,准确的价值估计需要深层次的时间理解,这要求模型既能基于历史上下文建立当前信念,又能对未来结果进行规划。然而,现有的大多数机器人价值模型都建立在视觉-语言模型(VLM)骨干网络上,这些骨干网络主要基于静态或时间稀疏的视觉观察进行预训练,缺乏价值估计所需的时间建模能力。与VLM不同,世界模型天然擅长时间建模和未来规划,因此是学习可泛化价值函数的理想基础。受这一洞察驱动,我们将世界模型与价值估计结合,构建了一种新的通用机器人价值模型——世界价值模型(WVM),该模型能够提供准确的任务进展评估,以衡量数据质量。在标准基准上,WVM取得了价值序相关性(VOC)的最先进结果。为了补充仅包含专家数据的标准评估套件,我们进一步引入了Suboptimal-Value-Bench,这是一个多实体基准测试,包含800条带有高保真人工标注帧的次优轨迹。我们的评估表明,WVM在Suboptimal-Value-Bench上仍保持最先进性能,证明了其在处理专家数据和次优数据时的鲁棒性。当部署于策略学习时,WVM在模拟和真实环境部署中均能提升多种策略提取方法的操作性能,为从混合质量数据中学习提供了稳健的指导。

查看 arXiv 页面(https://arxiv.org/abs/2606.24742)查看 PDF(https://arxiv.org/pdf/2606.24742)项目页面(https://zh1hao.wang/wvm/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24742)

引用该论文的模型 0

暂无模型链接该论文

请在模型 README.md 中引用 arxiv.org/abs/2606.24742,从而从本页面建立链接。

引用该论文的数据集 0

暂无数据集链接该论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24742,从而从本页面建立链接。

引用该论文的 Spaces 0

暂无 Space 链接该论文

请在 Space README.md 中引用 arxiv.org/abs/2606.24742,从而从本页面建立链接。

包含该论文的收藏夹 0

暂无收藏夹包含该论文

请将该论文添加到一个收藏夹(https://huggingface.co/new-collection),从而从本页面建立链接。

相似文章

机器人学习中的世界模型:全面综述

Hugging Face Daily Papers

本综述全面回顾了机器人学习中世界模型的文献,涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。

RobotValues:评估人类价值观冲突时的家用机器人

Hugging Face Daily Papers

介绍了RobotValues,一个包含1万个价值观冲突场景的基准测试,用于评估家用机器人规划器。结果表明,视觉语言模型表现出默认的价值观偏好,并且在被要求优先考虑冲突的价值观时,有80%的情况无法覆盖其默认行为。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。