Yann LeCun on Leaving Meta, Breaking The LLM Paradigm, & Why Hinton is Wrong

Reddit r/singularity 新闻

摘要

Yann LeCun 离开 Meta 创办 AI 公司 AMI,专注于基于联合嵌入预测架构(JEPA)的世界模型,他认为 LLM 不是通往人类智能的道路,并批评当前范式缺乏预测和规划能力。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/15 17:10

TL;DR: Yann LeCun 认为 LLM 不是通往人类水平智能的道路,他离开 Meta 创办 AI 公司 AMI,专注于基于联合嵌入预测架构(JEPA)的世界模型,以理解物理世界并实现规划能力。 ## 离开 Meta 的背后 Yann LeCun 在 Meta(原 FAIR)领导基础研究多年,但公司环境逐渐不适合他推动的世界模型项目。2023 年初,Meta 凭借 FAIR 开发的 Llama 进入 LLM 领域,随后成立 GenAI 组织将其产品化。然而马克·扎克伯格对进展失望,重组了组织,将几乎所有资源投入 LLM 追赶行业。虽然扎克伯格本人及 CTO 杜布·波斯沃思等高层对 JEPA 和世界模型项目感兴趣,但公司其他人完全专注于 LLM,并明确告诉 LeCun:Meta 不再是推动该项目的合适地方。到 2024 年底,随着团队取得关键进展,LeCun 认识到必须进行从研究到实际开发的过渡,而多数应用(如工业制造)并非 Meta 的重点。于是他离开 Meta,创办 AMI Labs。 ## 对 LLM 范式的怀疑 LeCun 强调:“LLM 本身没有错,它们对于它们所做的事情来说很棒,但并不是通往人类水平甚至动物般智能的道路。”他认为目前的 LLM 擅长处理人类语言(自然语言、代码、数学等),但真实世界远比语言复杂——高维、连续、嘈杂、混乱。语言模型不具备预测自身行为后果的能力,也没有规划能力,因为推理只是逐 token 预测,而非搜索与优化。 ## 世界模型的两个关键特征 LeCun 提出智能系统必须具备两个核心能力: 1. **预测自身行为后果**:这是任何具备行动能力的智能系统的基础。例如推一个水瓶,知道推底部会滑动、推顶部可能翻倒。不需要像素级精确,而是要在抽象表示层面预测。 2. **通过搜索进行规划**:不是自动回归式地逐个预测动作,而是通过搜索和优化找到一系列能达成目标的行动。 这与他倡导的非生成式架构——联合嵌入预测架构(JEPA)密切相关。 ## JEPA 的起源:从自编码器到非生成式架构 LeCun 长期以来对通过学习预测来建立世界模型感兴趣。大约五年前他意识到:成功学习图像和视频表示的架构都是非生成式的,而生成式架构(如 VAE、稀疏自编码器)基本失败。去噪自编码器(如 MAE)也令人失望。同期在 FAIR 巴黎和纽约的团队发现,联合嵌入架构效果更好:取一张图像,以某种方式损坏它,然后运行两个编码器,从损坏图像的表示预测原始图像的表示。这就是 JEPA(联合嵌入预测架构)。由此衍生的 DINO V1/V2/V3、VJEPA、MIM-编码器等项目在图像和视频表示学习上表现出色。 ## AMI:面向真实世界的 AI AMI 代表“高级机器智能”(Advanced Machine Intelligence),副标题是“面向真实世界的 AI”。公司核心目标是构建能理解物理世界、具备规划能力的世界模型。LeCun 指出,视觉-语言-动作模型(VLA)目前被广泛认为行不通——不够可靠、需要太多数据。而世界模型则是能预测行为后果并支撑规划的系统。AMI 将 JEPA 架构扩展到真实世界的视频学习,试图推动从研究到产品化的过渡,主要应用领域包括工业制造等。 ## 受认知科学启发的架构 LeCun 承认,他对世界模型的构想受认知科学启发,尤其是心理学家所说的“系统二”:通过深思熟虑、预测后果来规划行动,区别于本能反应式的“系统一”。但更重要的是大量经验证据:生成式架构(试图在像素级预测)无法有效学习抽象表示,而非生成式的 JEPA 能在抽象表示层面进行预测,这更符合人脑的实际工作方式。 Source: https://www.youtube.com/watch?v=ngBraLDqzdI

相似文章