@OWW: RoboWits: 机器人创意问题解决的意外挑战 Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Che…

X AI KOLs Timeline 论文

摘要

RoboWits 是一个双臂机器人基准测试,系统评估认知推理、创造性工具使用以及应对意外条件的鲁棒性,揭示了当前机器人策略和预训练VLA在变异任务上的显著性能差距。

RoboWits: 机器人创意问题解决的意外挑战 Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Chen, Thomas L. Griffiths, Yejin Choi, David Held, Chuang Gan https://t.co/ri5iiQSFTa [𝚌𝚜.𝚁𝙾 𝚌𝚜.𝙰𝙸] https://t.co/RpdE0M7C75
查看原文
查看缓存全文

缓存时间: 2026/06/01 01:25

RoboWits:机器人创造性问题解决中的意外挑战

Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Chen, Thomas L. Griffiths, Yejin Choi, David Held, Chuang Gan https://t.co/ri5iiQSFTa [cs.RO cs.AI] https://t.co/RpdE0M7C75


机器人创造性问题解决中的意外挑战

来源:https://arxiv.org/html/2605.30326 Chunru Lin1, Hongxin Zhang1∗, Fenghao Yu1, Zhehuan Chen1 Thomas L. Griffiths2, Yejin Choi3, David Held4, Chuang Gan1 1马萨诸塞大学阿默斯特分校2普林斯顿大学 3斯坦福大学4卡内基梅隆大学 {chunrulin,hongxinzhang,chuangg}@umass.edu

摘要

在意外挑战下进行推理、适应和创造性解决问题的能力,对于在现实环境中运行的机器人至关重要。然而,当前的机器人基准测试主要强调技能层面的执行,对此类认知推理能力的洞察有限。我们提出RoboWits,一个双臂机器人基准测试,旨在系统性地评估认知推理、创造性工具使用以及对意外条件的鲁棒性。为了实现可扩展的高质量推理中心意外场景构建,我们提出一个自动任务生成流程,该流程被构建为一个多智能体协作框架,包含用于种子任务生成和验证、指标生成、场景生成以及任务变异的智能体。利用该流程,我们策划了30个多样化的种子任务和208个具有变异和分级难度的任务,涵盖几何、材料和装配推理。我们对流行的机器人策略、预训练VLA和oracle状态规划器进行了基准测试。我们的结果揭示了一个显著的性能差距:预训练VLA在单任务微调后在种子任务上取得了初步成功,但在变异任务上表现挣扎,这表明它们在需要推理、策略适应以及对欺骗性或受限环境鲁棒性的操作任务中具有脆弱性。请参阅我们的项目页面111https://umass-embodied-agi.github.io/RoboWits/ 获取视频。

1 引言

创造性解决问题和适应意外挑战的能力是智能行为的基础。在日常生活环境中,人类和动物经常遇到初始策略失败、工具行为与预期不同,或存在误导性替代方案的情况。在此类场景中成功不仅依赖于执行运动技能,还依赖于对物体几何、材料属性和物理约束的推理,以及在假设被违反时灵活地修改计划。为了让机器人在现实世界中可靠运行,它们必须展示类似的认知问题解决能力。

尽管机器人操作取得了显著进展,但当前的机器人基准测试主要关注在明确定义条件下的技能执行james2020rlbench (https://arxiv.org/html/2605.30326#bib.bib19); liu2023libero (https://arxiv.org/html/2605.30326#bib.bib28); geng2025roboverse (https://arxiv.org/html/2605.30326#bib.bib13); chen2025robotwin (https://arxiv.org/html/2605.30326#bib.bib6),例如抓取、推动或预定义的工具使用xu2023creative (https://arxiv.org/html/2605.30326#bib.bib48)。如图1 (https://arxiv.org/html/2605.30326#S1.F1) 所示,掌握技能执行的VLA在面对场景的微小变化时表现挣扎,而能够跳出常规思考的VLA可以推理场景中隐含的约束并创造性地调整策略。虽然最近的VLA展示了令人印象深刻的工具使用和失败恢复能力,例如纸板箱组装intelligence2025pi06vlalearnsexperience (https://arxiv.org/html/2605.30326#bib.bib1) 和用纸盘收集小物体generalist2025gen0 (https://arxiv.org/html/2605.30326#bib.bib36),但仍缺乏一个统一的基准测试来系统性地评估机器人推理、适应和处理意外挑战的能力。因此,当前VLA模型的推理能力尚未得到充分理解,缺乏系统性评估使得难以诊断其失败模式或识别需要改进的特定推理组件,以推动更强大、推理驱动的VLA的发展。

参考图注 图1:意外挑战下的创造性问题解决。该图对比了标准机器人(左)和理想机器人(右)在相同指令但难度递增的情况下执行任务的推理和执行过程。两者都能在简单设置(左上)中成功,但当立方体深陷于杯子中(困难,左下),或杯子牢固固定在桌子上(更困难,右)时,标准机器人陷入重复执行直接但不可行的动作。相反,理想机器人通过主动推理意外失败,动态发现并执行新颖的恢复策略,展示了真正的创造性问题解决能力。为了解决这一差距,我们提出RoboWits,一个新的双臂机器人基准测试,明确针对评估认知推理、创造性工具使用以及对意外挑战的鲁棒性。该基准测试包含需要几何、材料和装配推理的操作任务,其中简单解决方案通常无效或低效。任务按多个难度级别组织,从而能够细粒度地评估机器人模型如何随推理复杂性的提升而扩展。

手动设计此类任务非常耗时,即使对人类设计者来说也极具挑战性。为了大规模生成多样化、高质量的任务,我们提出一个自动任务生成流程,该流程被构建为一个多智能体协作框架。该流程将任务构建分解为具有不同角色的专门智能体:种子任务生成器,提出认知上具有挑战性的任务规范;任务变异生成器,将每个种子扩展为多种任务变异,其中原始解决方案因场景微小变化而被阻断;任务指标生成器,产生可执行的评估标准;任务验证器,确保任务的可行性、可模拟性和推理的必要性;以及场景生成器,构建逼真且物理一致的环境。通过这些智能体之间的结构化协作,该流程自动生成一组多样化且可扩展的认知挑战性任务,这些任务很难手工设计。我们构建了30个种子任务,涵盖几何、材料和装配推理,并将其扩展为208个具有分级难度和完整评估代码的任务。我们还为其中10个种子任务收集了50个人类远程操作演示,以促进基准测试。

虽然认知推理可以说是可以通过模仿学习的,但现有的机器人策略模型即使在经过大规模预训练后,仍无法以零样本方式可靠地执行未见过的任务。我们在RoboWits上评估了一系列代表性模型,包括模仿学习基线、预训练视觉-语言-动作(VLA)模型以及具有oracle访问物体状态权限的视觉-语言模型(VLM)规划器,在单任务微调和多任务学习机制下进行。我们的实验结果表明,预训练VLA利用其先验知识,在低数据场景(50个演示)下优于从零开始的模型,但在涉及复杂材料交互和装配推理的任务中仍然表现出明显困难。即使具有oracle状态访问权限,由VLM驱动的模块化规划器在种子任务上实现了合理性能,但未能有效泛化到变异任务变体。总体而言,RoboWits为量化低级操作熟练度与高级认知适应之间的差距提供了一个严格的框架。

总之,我们的贡献如下:

  • • 我们提出RoboWits,一个新的机器人基准测试,评估双臂操作中的认知推理、创造性工具使用以及对意外挑战的鲁棒性。
  • • 我们提出一个自动化的多智能体任务生成流程,能够可扩展地构建多样化、以推理为中心的操作任务。
  • • 我们对现有机器人策略方法进行基准测试,揭示了在推理和适应方面超越低级技能执行的成就和局限性。

2 相关工作

表1:基准测试比较。我们将RoboWits与相关工作进行比较。RoboWits具有自动生成流程,并为涉及多样材料(流体、软体)、创造性工具使用和策略适应的任务提供系统支持。基准测试 任务类型 策划 评估 #任务 范围 任务特征 多样工具 策略 材料 使用 适应 RLBenchjames2020rlbench (https://arxiv.org/html/2605.30326#bib.bib19) 单臂 人工 二值成功 100 短-长 ✗ ✓ ✗ LIBEROliu2023libero (https://arxiv.org/html/2605.30326#bib.bib28) 单臂 人工 二值成功 130 短-长 ✗ ✗ ✗ RoboTwin 2.0chen2025robotwin (https://arxiv.org/html/2605.30326#bib.bib6) 双臂 人工 二值成功 50 短-中 ✗ ✗ ✗ RoboEvalwang2025roboeval (https://arxiv.org/html/2605.30326#bib.bib45) 双臂 人工 成功+分数 10 短-中 ✗ ✗ ✗ VLABenchzhang2025vlabench (https://arxiv.org/html/2605.30326#bib.bib53) 单臂 人工 二值成功 100 短-长 ✗ ✓ ✗ MacGyvertian2024macgyver (https://arxiv.org/html/2605.30326#bib.bib38) 文本规划 生成 人工评判 1.6k - ✓ ✓ ✓ RoboWits (Ours) 双臂 生成 成功+分数 208 短-长 ✓ ✓ ✓

2.1 机器人操作与基准测试

由于可用数据的增加和更好的架构,机器人策略模型近期取得了快速进展brohan2022rt (https://arxiv.org/html/2605.30326#bib.bib5); zitkovich2023rt (https://arxiv.org/html/2605.30326#bib.bib56); liu2024rdt (https://arxiv.org/html/2605.30326#bib.bib29); kim2024openvla (https://arxiv.org/html/2605.30326#bib.bib22); li2024cogact (https://arxiv.org/html/2605.30326#bib.bib24); team2024octo (https://arxiv.org/html/2605.30326#bib.bib37); ye2024latent (https://arxiv.org/html/2605.30326#bib.bib50); wang2024rise (https://arxiv.org/html/2605.30326#bib.bib40); chi2025diffusion (https://arxiv.org/html/2605.30326#bib.bib9); fu2024mobile (https://arxiv.org/html/2605.30326#bib.bib12); wen2025tinyvla (https://arxiv.org/html/2605.30326#bib.bib46); lee2025molmoact (https://arxiv.org/html/2605.30326#bib.bib23); ke20243d (https://arxiv.org/html/2605.30326#bib.bib21)。借助现代物理模拟器,如Genesisauthors2024genesis (https://arxiv.org/html/2605.30326#bib.bib2)、SAPIENxiang2020sapien (https://arxiv.org/html/2605.30326#bib.bib47)、MuJoCotodorov2012mujoco (https://arxiv.org/html/2605.30326#bib.bib39)、IsaacGymmakoviychuk2021isaac (https://arxiv.org/html/2605.30326#bib.bib31)以及其他专用模拟器wang2023softzoo (https://arxiv.org/html/2605.30326#bib.bib41); lin2024ubsoft (https://arxiv.org/html/2605.30326#bib.bib26); song2025oceansim (https://arxiv.org/html/2605.30326#bib.bib35),已经开发了许多机器人基准测试,并在评估和改进机器人策略模型方面发挥了重要作用gu2023maniskill2 (https://arxiv.org/html/2605.30326#bib.bib14); pumacay2024colosseum (https://arxiv.org/html/2605.30326#bib.bib34); li2024evaluating (https://arxiv.org/html/2605.30326#bib.bib25); chernyadev2024bigym (https://arxiv.org/html/2605.30326#bib.bib8); mees2022calvin (https://arxiv.org/html/2605.30326#bib.bib32); chen2025benchmarking (https://arxiv.org/html/2605.30326#bib.bib7)。RLBenchjames2020rlbench (https://arxiv.org/html/2605.30326#bib.bib19) 包含100个多样化的人工设计操作任务,LIBEROliu2023libero (https://arxiv.org/html/2605.30326#bib.bib28) 提供跨四个维度的任务套件,RoboTwin 2.0chen2025robotwin (https://arxiv.org/html/2605.30326#bib.bib6) 提供50个双臂操作任务,RoboEvalwang2025roboeval (https://arxiv.org/html/2605.30326#bib.bib45) 引入了结构化评估,VLABenchzhang2025vlabench (https://arxiv.org/html/2605.30326#bib.bib53) 提供需要语言级别推理的操作任务。其他基准测试如HomeRobotyenamandra2023homerobot (https://arxiv.org/html/2605.30326#bib.bib51)、RoboCasanasiriany2024robocasa (https://arxiv.org/html/2605.30326#bib.bib33) 和RoboSuitezhu2020robosuite (https://arxiv.org/html/2605.30326#bib.bib55) 进一步扩展到移动操作。尽管取得了成功,但大多数现有基准测试主要强调在明确场景下的技能执行。我们的基准测试和自动流程更进一步,系统性地生成和评估针对明确推理、多样材料、创造性工具使用以及在意外约束下鲁棒适应的双臂任务。

2.2 创造性问题解决

创造性问题解决在自然语言处理和认知科学等领域已被广泛研究,其中基准测试评估多步规划、策略修正和组合泛化guilford1967creativity (https://arxiv.org/html/2605.30326#bib.bib15); kaufman2009beyond (https://arxiv.org/html/2605.30326#bib.bib20); tian2024macgyver (https://arxiv.org/html/2605.30326#bib.bib38); collins2022structured (https://arxiv.org/html/2605.30326#bib.bib10); wang2023newton (https://arxiv.org/html/2605.30326#bib.bib42)。然而,这些基准测试通常局限于特定场景,如纯文本,并且需要大量人工评估。在机器人学中,物理模拟器通过基于物理的交互和自动成功度量,为研究创造性问题解决提供了天然的测试平台。一些机器人基准测试开始涉及相关方面,通常通过多任务指令跟随或语言条件操作yu2020meta (https://arxiv.org/html/2605.30326#bib.bib52); mees2022calvin (https://arxiv.org/html/2605.30326#bib.bib32); geng2025roboverse (https://arxiv.org/html/2605.30326#bib.bib13); zhang2025vlabench (https://arxiv.org/html/2605.30326#bib.bib53),但它们并未系统性地隔离和评估在意外约束下的创造性工具使用和适应。相比之下,RoboWits 通过以推理为中心的双臂任务和基于度量的规模化评估,直接针对这些能力。

2.3 自动任务生成

自动生成任务对于扩展基准测试同时减少手工设计劳动至关重要。先前的工作通过域随机化探索任务多样化james2020rlbench (https://arxiv.org/html/2605.30326#bib.bib19); chen2025robotwin (https://arxiv.org/html/2605.30326#bib.bib6),这主要改变指令、纹理和物体放置等表面因素。多个研究线路探索通过手工规则进行程序生成的场景生成deitke2022 (https://arxiv.org/html/2605.30326#bib.bib11); liu2023libero (https://arxiv.org/html/2605.30326#bib.bib28),以及利用2D先验构建3D布局的图像驱动流程shao2025mesatask (https://arxiv.org/html/2605.30326#bib.bib16); wang2024architect (https://arxiv.org/html/2605.30326#bib.bib43),以及最近基于LLM的方法,这些方法要么为外部求解器生成符号约束,要么通过提示直接预测物体放置wang2023robogen (https://arxiv.org/html/2605.30326#bib.bib44); yang2024holodeck (https://arxiv.org/html/2605.30326#bib.bib49)。其他工作关注指标生成,其中任务成功甚至奖励通过基于模拟器状态和物理条件的编程检查来定义huang2023diffvl (https://arxiv.org/html/2605.30326#bib.bib18); ma2024dreureka (https://arxiv.org/html/2605.30326#bib.bib30); lin2025robotsmith (https://arxiv.org/html/2605.30326#bib.bib27)。在这些方向的基础上,我们提出一个统一的多智能体流程,该流程联合进行任务创建、多样化、验证、场景实例化和指标合成。这使得可扩展生成成为可能。

相似文章

GLM-5.2 快速评测(附:审查问题回答)

Reddit r/LocalLLaMA

一位用户对通过 API 调用的 GLM-5.2 进行了详细评测,称赞其长上下文连贯性、自适应推理能力以及与 GPT-5.5 相当的前沿文本性能,同时指出缺乏原生视觉能力且本地计算需求较高。

稀疏性诅咒:从模型合并理解RLVR模型参数空间

arXiv cs.LG

本文研究了合并RLVR模型中的“稀疏性诅咒”,发现稀疏更新导致近乎正交的参数方向,阻碍了聚合,并提出了SAR-Merging方法,该方法利用Fisher信息和稀疏化来解决冲突,提高在数学和编程任务上的合并性能。