面向现实世界的人工智能:与Yann LeCun的对话(12分钟阅读)

TLDR AI 新闻

摘要

Yann LeCun认为,大型语言模型缺乏真正的智能,因为它们不理解物理世界;他主张开发能够学习因果关系并为现实世界应用提供规划的“世界模型”。

当今的LLMs可能具有商业价值,但仅靠预测文本不会带来人类级别的智能,因为语言只是人类理解世界的一小部分。未来的AI系统将依赖“世界模型”,这些模型学习物理、因果关系和后果的抽象表示,从而能够在机器人、医疗、工厂和工业系统等现实世界环境中进行规划、推理和适应。
查看原文
查看缓存全文

缓存时间: 2026/05/14 00:11

当今的LLM(大语言模型)可能具有商业价值,但仅靠文本预测无法达到人类水平的智能,因为语言只是人类理解世界的一小部分。未来的AI系统将依赖能够学习物理、因果和后果的抽象表征的“世界模型”,从而在机器人、医疗、工厂和工业系统等现实环境中实现规划、推理和适应。


面向现实世界的人工智能:与Yann LeCun的对话

今天的语言模型是通往机器智能的路径,还是一个具有商业价值的局部最优解?

@ylecun 是支持后者观点中最清晰且最为一致的 voices 之一。在他看来,LLM 并不智能,无论它们多么有用。那些被训练来预测离散 token 序列的系统并不具备对世界的理解,而这是智能的基本构建块。

几周前我与 Yann 坐下来探讨了这一想法以及他对未来的愿景。

“有一个问题是,我们今天的模型是否有用?它们是否有市场?答案是肯定的。” 但在更大的问题上,“这些模型会带我们达到人类水平的智能或类似水平吗?绝对不会。”

Yann 最近创立了 @amilabs,一家 @ZettaVentures 投资组合公司,旨在构建他心目中替代方案的样子:能够理解物理世界并预测行动后果的世界模型。

为什么语言不是智能

“人类的知识和思想大部分与语言无关,”Yann 说。然而我们却把任何能流利说话的东西都归因于理解。“我们有一种偏见,倾向于将智能赋予那些能够通过语言表达自己的东西。”

他向我展示了一个他之前做过的计算。一个四岁的孩子大约醒着 16,000 小时。视神经每根纤维每秒携带约 1 字节信息,每只眼睛约有 100 万根纤维。如果相乘,在生命前四年中到达大脑的视觉数据大约为 10^14 字节,这与用于预训练现代 LLM 的整个文本语料库的数量级相当。

“我们任何人读这些数据都需要大约 40 万年,”他说。换句话说,一个小孩仅仅通过视觉吸收的原始信息就与最大的语言模型在训练中看到的信息量相当。“我们永远无法仅通过文本训练达到人类水平的 AI。这根本不可能。”

LLM 所具有的是积累和检索陈述性知识的能力。这意味着它们随着时间的推移看起来更聪明,而不用发展出更深层次的现实模型。它们只是更熟悉人们提出的问题类型。

“如果你想让一个系统智能地行动,”他说,“它必须能够预测其行动的后果。而 LLM 完全无法做到这一点。”

Yann 认为语言模型只适用于两个特定领域:编码和数学。“为什么在这两个领域效果这么好,因为这些领域仅仅是符号的操控就构成了推理的基板。”但这些都是狭隘的案例。“对于需要一点常识推理和规划的日常事务,它们永远无法达到那个水平。”

替代方案的样子

替代方案是 Yann 已经努力超过 15 年的东西。这是一个学习世界如何演变的系统,并且能够预测一系列行动会带来什么后果。

“这是构建可靠智能体系统的唯一方式,”他说。“我不明白人们怎么能想到构建在行动之前没有预测后果能力的智能体系统。”

困难的部分是从现实世界数据中学习这样的模型。下一个 token 预测之所以有效,是因为符号是离散且可压缩的。物理世界则不然。“我在这上面研究了超过 15 年,前 10 年基本上都在失败,因为我使用生成式架构试图在像素级别预测视频中将要发生的事情。这种数据根本无法预测。”

他举了一个例子:平衡在手上的笔。如果你松手,可以预测它会掉下来。但无法预测它掉落的精确方向,或者下一帧每个像素的精确配置。如果你训练一个系统来预测所有这些细节,就会迫使它把噪声和偶然性当作智能的本质来建模。“当你试图训练一个系统预测情境中的每一个细节时,你基本上就毁了它,因为你试图训练它做不可能的事。”

他提出的替代方案是联合嵌入预测架构(JEPA)。系统不是在像素级别进行预测,而是学习世界的抽象表征并在那里进行预测。“输入中所有不可预测的细节、所有噪声、所有复杂性基本上都会从表征中剔除,这样预测才能可靠。”你学到了对规划至关重要的潜在状态,即使无法从中重新生成逼真的一帧。

一旦有了抽象的世界模型,推理就变成了在该模型中的搜索。这正是 LLM 做不到的,因为它们没有可以搜索的模型。“推理是一种搜索,这个想法非常根本,”他说。“LLM 做不到这一点。它们没有任何真正搜索答案的能力。它们只是生成一个答案,一个 token。”在他看来,思维链是一种变通办法:“一种非常低效的方式,迫使自回归预测系统大致接近推理。”他认为真正的推理是内部模拟。这意味着操作心理模型,运行反事实,像人类规划巴黎之旅那样进行层次化规划(即不是在肌肉命令层面,而是自上而下地细化子目标)。

这就是为什么他更喜欢“超人适应智能”(Superhuman Adaptable Intelligence)这个术语,而不是 AGI。“智能的真正属性是解决你没有经过训练就能解决的新问题。”

AMI Labs 与世界模型

这一论题现在成了 Yann 的公司:AMI Labs(高级机器智能,发音与法语单词“朋友”类似)。

AMI 正在构建面向现实世界的人工智能。“很多行业只是在运行东西,对吧?比如物理事物。而这正是当前 AI 技术的短板,”他告诉我。该公司明确关注工业过程控制、自动化、可穿戴设备、机器人和医疗保健。

经济中的很大一部分依赖于运行物理系统(工厂、供应链、电网、生物系统、交通网络)。在这些环境中,文本往往是工作周围的界面,而不是工作本身。“AMI 正在构建通用的基础模型,可以应用于任何需要智能系统运行物理事物的情况,”Yann 说。

AI 的物理经济层将建立在与大多数公司今天使用的不同技术栈上。这不是预测下一个 token,而是预测下一个状态。

还有其他一些公司也在尝试构建世界模型的版本。不同之处在于模型试图预测什么:像素和几何,还是抽象状态。

根据他们的网站,@drfeifei 的 @theworldlabs 正在构建“能够感知、生成、推理并与 3D 世界交互的世界模型”。他们的第一个产品 Marble 将文本、图像或视频转化为 3D 环境,设计师可以在不同的创意工具中打开。@GoogleDeepMind 的 Genie 3 对类似问题采取了不同方法,实时生成可交互的世界,用户可以逐帧导航。

@1x_tech 和 @GeneralistAI 正在构建专门用于类人机器人的视频预训练世界模型。1X 的模型首先从互联网视频中学习,然后从人类视角拍摄的镜头中学习,并使用第二个模型将其“接下来应该发生什么”的预测转化为机器人运动。Generalist 结合了世界模型和 VLA 的思想,在从人类执行日常任务时佩戴的可穿戴设备收集的约 50 万小时真实世界物理交互数据上进行训练。

@nvidia 的 Cosmos 正在构建一个平台,以“帮助开发者为其物理 AI 设置构建定制化的世界模型”。与此同时,@Tesla 正在构建一个能够驾驶汽车和控制类人机器人的单一 AI 模型,将两者视为运行相同底层智能的不同身体。

AMI 的独特之处在于围绕 JEPA 风格的抽象表征(而非像素级生成)的架构选择。像素级完美预测计算成本高昂,而且正如 Yann 在该领域追赶之前多年所主张的那样,试图预测不可预测的东西会严重削弱模型对重要内容的把握。抽象表征保留了因果相关的结构,同时去除了噪声。如果它有效,它既是更好的物理模型,也是部署成本更低的模型。

为什么这很重要

具体到机器人领域,其影响是巨大的。目前占主导地位的方法是视觉-语言-动作模型,它将观察直接映射到电机指令。这种方法遇到了两个广为人知的天花板。

第一个是数据。远程操控的机器人数据是最高质量的来源,但无法并行化。它受限于你拥有的机器人数量和有经验操作员的工作时长。研究人员开发了变通方法:像 UMI 这样的手持式抓爪,让人类无需机器人即可收集演示数据;记录日常活动的可穿戴设备;跨形态数据集,汇集不同机器人类型的数据;以及模拟流水线。但每一种都存在需要弥合的形态差距。与此同时,最大的可用语料库——互联网上的人类视频——很难直接利用,因为动作没有被标注。最近关于逆动力学和潜在动作模型的工作开始解锁这一领域,这也是世界模型获得动力的部分原因。

第二个是形态锁定。从观察到动作的映射往往将学到的知识与特定的机器人身体耦合。跨形态的转移是可能的,但并不完美。在一个机械臂上训练的策略通常需要大量调整才能在另一个上运行。知识最终被捕获在“这个机器人应该在这个特定环境中如何移动”的层面,而不是“世界上应该发生什么”。

世界模型同时解决了这两个问题。如果你学习到世界如何演变的抽象表征(物体如何下落、接触如何传播、液体如何表现),你就学到了无论哪个身体在其中行动都成立的知识。这些知识可以从没有动作标签的视频中吸收,因为目标不是预测下一个电机指令,而是预测下一个状态。一个理解物理的模型随后可以适应任何可用的形态,只需校准而无需重新训练。

这个机会远远超出了机器人领域。“这种类型的应用有成千上万,”Yann 告诉我。“你想要控制现实世界中的任何东西:制造工厂、涡轮喷气发动机、化学过程。一个人类细胞。你想为患者规划一系列治疗,比如控制血糖。如果你对患者状态的至少某些方面有一个好的预测模型,或许你可以进行个性化的规划。”

一个会思考的系统

在像这样的时刻,很容易将市场的形状误认为是问题的形状。LLM 正在产生非凡的价值,并且在符号操控是实际工作的场景中,它们将继续这样做。

但经济的大部分并不依赖于文字和符号。它依赖于物理系统,即文本作为包装但本身不是工作的环境。能够在这些环境中运行的系统需要当前模型所没有的东西:对世界的基础理解、预测行动后果的能力,以及适应未经过训练的问题的能力。

智能远不止语言。未来的 AI 系统仍将使用语言,但语言将不再是它们唯一的基板。

正如 Yann 所说,“语言将成为一个会思考的系统的界面。”

作者注:LLM 仅用于轻度文案编辑(拼写、语法和清晰度)。内容、含义、语气和结构保持不变。

相似文章