@seclink: https://x.com/seclink/status/2067970118873993482

X AI KOLs Following 论文

摘要

当前主流纯数据驱动机器人方案存在数据效率低、泛化性差的缺陷,新提出的神经符号物理智能范式将任务拆分为世界建模和规划两步,仅需1-10个演示即可学会新任务,泛化能力远超传统端到端方案,为通用机器人提供了更可靠的路径。

https://t.co/UTUKOWQpXd
查看原文
查看缓存全文

缓存时间: 2026/06/20 18:20

为什么AI机器人学新任务,远不如普通人?

📌 内容来源: https://www.youtube.com/watch?v=3W36pd50Wqw

⚡ 开篇先看 金句: 机器人要像人一样:先想明白再动手,不是练几百万次才会做当前主流纯数据驱动机器人物理智能方案,天生存在数据效率低、泛化性差的缺陷,学新任务需要数百倍于人类的样本量 新提出的神经符号物理智能范式,拆分为“世界建模+规划”两步,只用1-10个演示就能学会新任务,泛化能力碾压传统端到端方案 大模型时代,神经符号方法依然不可替代,是通往通用机器人的靠谱路径

你有没有发现一个奇怪的反差:生成式AI已经能写代码、画图、通过专业考试,可AI机器人学个新任务,却比普通人慢几百倍。折个箱子要100小时训练数据,操作简单的挖掘机动作要收集200个演示,换个训练时没见过的新物体,直接就抓瞎。这个反差背后,当前机器人物理智能的主流路线,从根上就存在局限。

在一场前沿学术分享中,现任亚马逊技术人员、即将加入U Penn担任system professor的研究者Jiajun,提出了一套全新的机器人物理智能范式,核心思路就是向人类学习:人类学新任务从来不是靠几百万次试错,而是看一遍演示,先在脑子里“预演”整个过程,想清楚了再动手。这套新范式已经在多个测试中验证了效果,性能远超传统方案,也许这才是通用机器人该走的方向。

💻 当前主流路线,天生缺陷明显

核心结论:纯数据驱动的端到端方案,天生做不到通用机器人。

现在机器人领域说的物理智能,指的是能在物理世界完成感知、语言理解、执行动作的人工智能,是机器人能落地干活的核心能力。目前美国西海岸很多科技公司走的主流路线,是把智能等同于“给数据集拟合函数”:直接训练模型,让模型从历史观测直接输出下一步动作,一切能力都从数据里学。

这套路线的缺陷非常致命: 第一,数据效率极低,泛化性极差。人类看一遍就能学会的新任务,机器人需要上百小时训练、上百个演示,换个没见过的新物体、新场景直接就失效了。 第二,没有组合能力。传统方案学出来的都是单个独立动作,没法拼接起来完成复杂任务——复杂任务要求前置动作满足后续动作的约束,比如先拿杯子再挂杯子,拿杯子的位置得刚好符合挂的要求,传统路线根本做不到这种匹配。

🧠 新范式:机器人先“想明白”,再动手

核心结论:把任务拆成“世界建模+规划”,用神经符号方法实现泛化,几个样本就能学会新任务。

这次提出的新范式,核心是向人类智能看齐:人类感知世界不是只识别像素,而是会抽象出物体、物体属性,做动作之前会先预想不同动作的结果,再推导得到任务方案。这套逻辑用到机器人上,就是把物理智能拆成“世界建模”和“动作规划”两步,用神经符号概念做抽象——简单说,就是结合神经网络的学习能力和符号系统的抽象组合能力,把状态和动作拆成可拼接的模块,方便机器人做规划。

新范式对动作的建模也换了思路:不再直接学动作,而是把动作生成建模成约束优化问题——先给任务定好一系列要满足的条件(也就是约束),再找满足所有条件的最优解。很多人类已经研究透的规则,比如刚体物理、几何约束,直接用现成的成熟模型就好,不用全部从零从数据学,只需要学和当前任务相关的部分就够了。

这套方法的实测结果非常亮眼: 仅用1个挂衣架的演示训练,就能泛化完成挂马克杯、挂全新3D打印字母的任务,成功率超过90%;而传统纯端到端的方法,成功率是0,其他改进方案的性能也远低于新范式。 1个演示就能教会机器人组合推、转、抬三个动作完成长周期任务,换全新物体也能自动拼接技能完成。甚至可以拓展到自然语言指令场景,根据“摆早餐桌,不用放零食”这类要求,完成可变的长周期摆放任务。

🤖 大模型时代,这套方法依然不可替代

核心结论:哪怕大模型能力很强,实用机器人天生就是组合式系统,神经符号框架的价值无法被取代。

现在大模型这么火,很多人觉得直接用大模型端到端做机器人就好了,为什么还要搞神经符号?分享里给出了非常清晰的判断:

首先,任何能落地使用的机器人系统,天生就是组合式的。机器人要干活,需要感知、跟踪、规划、控制多个不同模块,不可能做成一个纯端到端的黑箱,而神经符号框架刚好提供了一套整合这些模块的原则性思路。

其次,大模型已经帮我们把很多常识性的语义知识学好了,不用再从零让机器人学一遍。常识约束可以直接从预训练大语言模型、视觉语言模型里获得,直接放进规划环节当条件用,数据效率比从零学高太多。用户的偏好、额外要求,也可以直接当成约束加进去,不用重新训练整个模型。

多个实测都验证了这套方法的优势:洗盘子任务只需要10次单盘子演示,就能泛化完成洗两个盘子摆进碗架的任务,还能自己推理出正确顺序,避免先洗的盘子挡住后洗的;放书任务训练集只有最多两本书的对齐场景,模型可以泛化到更多书本、全新障碍物的场景,这些都是端到端模型(直接输入传感器数据输出动作,不分模块训练的模型)根本做不到的。

🧩 通往通用机器人的清晰路径

核心结论:组合不同专长模型,让系统自主迭代,这套思路已经摸到了通用智能的门槛。

这套框架的终极目标,是实现能少样本学习、跨场景泛化的通用物理智能机器人。少样本学习就是只需要极少数示例就能学会新任务,泛化就是能把学到的能力迁移到没见过的新场景新任务上,这也是通用机器人必须达到的人类级能力。

它的核心逻辑非常清晰:让不同专长的模型干自己擅长的事——视觉语言模型负责理解任务目标和语义,未来状态预测模块负责验证物理可行性,扩散模型(一类能生成多种符合约束结果的生成式AI模型,这里用来生成机器人运动轨迹)负责生成多种可行的运动轨迹和位姿,最后用神经符号推理把所有结果整合起来,选出最优方案再执行。

长远来看,这套框架支持机器人自主持续迭代学习:从基础的小技能出发,机器人可以自己探索物理世界获取新经验,不断升级自己的模型,不需要人类源源不断给它提供新的训练数据。

研究团队也已经按照这套思路,开源了闭环机器人智能体编程框架Retriever,供整个领域使用,目前已经在多个真实机器人任务上验证了可行性。

💡 核心金句

  • 机器人要像人一样:先想明白再动手,不是练几百万次才会做

  • 不用什么都从零从数据学,物理定律和常识本来就有,拿来用就好

  • 通用机器人要达到人类水平,得做到看一遍就会,换个场景也能用

  • 任何实用的机器人系统都天生是组合式系统,不可能是纯端到端的黑箱

  • 大模型时代,神经符号方法依然有不可替代的研究和应用价值

  • 我们还远没把大模型里的现有知识用透

相似文章

@seclink: https://x.com/seclink/status/2057093284330430533

X AI KOLs Following

英伟达机器人负责人Jim Fan公开演讲,主张机器人应直接照搬大语言模型的成功路径,提出世界动作模型(WAM)、基于人类第一人称视频的数据革命以及神经模拟等方向,并预测95%概率在2040年前实现通用实体机器人终局。

@seclink: https://x.com/seclink/status/2067968283492712846

X AI KOLs Following

本文基于研究者Victoria Lin的分享,系统梳理了原生多模态大模型的主流技术路线(Chameleon、Transfusion、MOT)及其优缺点,指出多模态AI仍处于早期探索阶段,存在缩放定律空白、图像理解与生成编码不统一、与物理世界对接等开放问题。

@seclink: 5. 机器人世界模型开源加速 - NVIDIA Cosmos 3 + Isaac GR00T:物理 AI 基础模型 - AGIBOT Genie Sim 3.0:首个完全开源的机器人仿真平台(代码+数据+资产全开源) - VLA(Visi…

X AI KOLs Following

机器人世界模型和仿真平台迎来开源加速:NVIDIA 推出 Cosmos 3 与 Isaac GR00T 物理 AI 基础模型,AGIBOT 发布 Genie Sim 3.0 全开源仿真平台,VLA 模型成为操作策略主流,整体降低了机器人领域的入门门槛。

@seclink: 机器人世界模型(全新维度,0 去重 = 全新信息) 核心项目: - Awesome-WAM(OpenMOSS):World Action Models 综合论文列表,含 DreamDojo(从人类视频学习的通用机器人世界模型) - awe…

X AI KOLs Following

介绍了两个机器人世界模型相关的项目:Awesome-WAM(OpenMOSS)收录了World Action Models和DreamDojo等论文;awesome-physical-ai整理了VLA模型、世界模型和具身基础模型论文合集(含NVIDIA Cosmos Predict2.5)。