RobotValues:评估人类价值观冲突时的家用机器人
摘要
介绍了RobotValues,一个包含1万个价值观冲突场景的基准测试,用于评估家用机器人规划器。结果表明,视觉语言模型表现出默认的价值观偏好,并且在被要求优先考虑冲突的价值观时,有80%的情况无法覆盖其默认行为。
查看缓存全文
缓存时间: 2026/06/05 06:06
论文页面 - RobotValues:当人类价值观冲突时评估家用机器人
来源:https://huggingface.co/papers/2606.03312
摘要
RobotValues基准测试在价值冲突场景下评估家用机器人规划器,结果发现视觉语言模型表现出默认的价值偏好,并且在被要求优先考虑相互冲突的价值观时,难以覆盖这些默认偏好。
尽管家用机器人(https://huggingface.co/papers?q=household%20robots)通常基于任务完成情况进行评估,但日常家庭环境涉及价值冲突的情况,此时机器人应选择优先考虑其他价值观(而非任务成功)的行动,例如人类自主性、效率或社交适当性。然而,目前尚无基准来评估机器人在此类场景中的价值偏好。我们引入了RobotValues(https://huggingface.co/papers?q=RobotValues),这是一个在10K个价值冲突场景(https://huggingface.co/papers?q=value-conflict%20scenarios)中评估家用机器人规划器的基准。每个实例包含一张现实的家居图像,以及多个优先考虑不同人类价值观的合理机器人行动。我们通过LLM辅助场景生成(https://huggingface.co/papers?q=LLM-assisted%20scenario%20generation)、利益相关者驱动价值提取(https://huggingface.co/papers?q=stakeholder-grounded%20value%20extraction)、图像生成(https://huggingface.co/papers?q=image%20generation)和自动质量控制(https://huggingface.co/papers?q=automatic%20quality%20control)构建了RobotValues(https://huggingface.co/papers?q=RobotValues)。使用RobotValues(https://huggingface.co/papers?q=RobotValues)评估机器人领域使用的视觉语言模型时,我们发现模型表现出默认价值偏好,包括安全性和适应性,同时较少选择优先考虑隐私的行动。当模型被指示优先考虑与其自身偏好冲突的特定价值观时,它们往往无法覆盖默认行动,有80%的时间选择了错误的行动。这些发现表明,家用机器人的评估不仅应衡量任务完成或安全合规性,还应衡量机器人在人类价值观冲突时能否在合理行动中做出选择。
查看arXiv页面(https://arxiv.org/abs/2606.03312)查看PDF(https://arxiv.org/pdf/2606.03312)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03312)
在您的代理中获取该论文:
hf papers read 2606\.03312
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接该论文
在模型README.md中引用arxiv.org/abs/2606.03312以从该页面链接。
引用该论文的数据集0
没有数据集链接该论文
在数据集README.md中引用arxiv.org/abs/2606.03312以从该页面链接。
引用该论文的Spaces0
没有Space链接该论文
在Space README.md中引用arxiv.org/abs/2606.03312以从该页面链接。
包含该论文的收藏集0
没有收藏集包含该论文
将该论文添加到一个收藏集(https://huggingface.co/new-collection)以从该页面链接。
相似文章
RoboLab:用于任务通用策略分析的高保真仿真基准
# 论文页面 - RoboLab:用于任务通用策略分析的高保真仿真基准 来源:[https://huggingface.co/papers/2604.09860](https://huggingface.co/papers/2604.09860) ## 摘要 RoboLab 是一个仿真基准框架,通过可扩展的真实任务生成和对策略在受控扰动下行为的系统分析,解决机器人策略评估中的局限。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
人们到底想从AI得到什么?映射偏好多元性
本文分析了来自75个国家的1500份开放式回答,揭示了人们对AI的偏好多样且常常相互冲突,其中真实是唯一被广泛需求的价值(49%),但定义方式却互不兼容。研究认为,当前的RLHF方法将这些多元偏好扁平化为通用奖励模型,延续了认知暴力。
@rohanpaul_ai:Dr Fei-Fei-Li (@drfeifei) 解释了为什么以及日常家务对机器人来说为何如此困难。“如果你……
李飞飞博士探讨了机器人在理解和执行日常家务任务时面临的挑战,重点说明了将“打开抽屉并避开花瓶”这类自然语言指令转化为机器人实际操作的高难度。
机器人需要的不仅仅是VLA和世界模型
本文立场论文认为,推进机器人智能需要将非结构化的行为数据通过专门的接口进行整合,用于标注、具身映射、世界建模和奖励推断,而不是仅仅依赖扩展视觉-语言-动作(VLA)模型和世界模型。