Rich Sutton on AI creativity and discovery
摘要
Rich Sutton argues that generative AI trained by supervised learning cannot achieve genuine novelty and quality simultaneously, and that true discovery requires a 'vary, evaluate, select' mechanism found in reinforcement learning rather than pure imitation.
查看缓存全文
缓存时间: 2026/06/10 05:44
A new and possibly controversial perspective: In this video, I explain the sense in which generative AI trained by supervised learning is incapable of making novel discoveries. https://t.co/LhAU6AyDkh
The text of the speech:
AI Creativity and Discovery
Good day ladies and
TL;DR: 生成式AI(如大语言模型)只能产生“新”或“好”的结果,无法同时兼得;真正的创造力与科学发现需要评估与选择性保留,其核心是“变异、评估、保留”三步机制,这种能力存在于强化学习等范式中,而不仅仅是监督学习。
AI创造力与发现:超越模仿式学习
Rich Sutton在演讲中从一个经典笑话切入:研究成果被评审评价为“既有新意又好,但好的部分没有新意,有新意的部分不好。” 他直言,这一评价恰好适用于当今大部分AI——尤其是生成式AI,包括大语言模型、图像视频模型以及学习世界模型的新方法。这些系统从大量示例中学习,生成与示例相似的输出,但永远无法在“新”与“好”之间取得平衡。
生成式AI的局限:新意与质量不可兼得
生成式AI可以产出既有新意又好的输出,但 不能同时。在多数任务中(如从互联网查找答案、总结文档),我们不希望AI有“新意”,因为“好”来自源材料。如果AI超越了源材料,就变成“幻觉”——我们通常不欢迎这种编造。
唯一的例外是创意场合(如编故事、生成新图像)。此时AI的输出之所以看似有“新意”,是因为处理过程引入了随机性:每次随机选择不同方向,产生不同轨迹。然而,这些轨迹要么基于数据(因而“好”),要么基于随机性(因而“新”),无法同时兼备。这正是“新意与好不可兼得”的本质。
对于普通应用,这种限制并非致命——生成式AI可以更快、更便宜、更可定制,比模仿的对象更有用。但在科学和数学领域,笑话中的评价是毁灭性的。这些领域需要真正的创造力和发现,而生成式AI——或称“模仿式AI”——永远无法满足这一需求。
真正的创造力来自“发现”机制
Sutton列举了能够实现真正发现的系统:AlphaGo(第37步改变世界)、AlphaZero(brilliant国际象棋风格)、GT Sophie(模拟赛车)、AlphaFold、AlphaProof、AlphaCode,以及RL lift(网约车匹配优化)。这些系统都产出了既新又好的结果。它们之所以能超越单纯监督学习,是因为具备一个额外特性:发现。
发现的实质是“尝试许多东西,看看哪些有效,并保留效果最好的”。这并非新概念——自然选择中的进化、科学方法、日常学习都遵循这一机制。心理学称之为工具性学习或操作性条件反射;机器学习中则称为强化学习。任何涉及“生成并测试、保留最佳”的流程都包含发现。
发现的三步核心:变异、评估、选择性保留
- 变异:盲目或部分有信息的生成新尝试。
- 评估:基于明确目标判断结果的价值。
- 选择性保留:只保留评估后被认为“好”的结果。
生成式AI缺少评估步骤。它的生成器通过监督学习预训练,运行时无法评估自己生成的内容。没有评估就没有选择性保留,也就没有发现。真正的创造力不仅需要随机生成,还需要价值识别和保留。当评估由人类提供(如从一堆AI图片中挑一张)时,整体过程是一个发现;更强大的情况是评估来自明确的目标,例如:
- 棋步导致将死 → 好;否则 → 不好
- 数学步骤导向证明 → 好;否则 → 不好
- 世界中的行动获得高奖励 → 好;否则 → 不好
- 基因型复制更多 → 更好
- 理论更好地解释数据 → 更好
在这些情况下,系统有明确已知的目标,因而能自主完成发现。
变异不必完全盲目,但必须有盲目成分
一位好科学家不会随机选择理论,但也不能完全确定——必须对答案所在位置有不确定性,这样找到答案时才叫发现。实践中,变异总是一部分有信息、一部分盲目,真正对应发现的正是盲目部分。
反向传播与持续变异
现代深度学习中的反向传播算法看似无法进行发现,因为它是确定性的。但网络使用小的随机初始化,提供了一次初始变异。这个初始化常被轻描淡写,实际是必要部分。然而,变异只在初始化时发生一次,之后网络会丧失可塑性。Sutton团队几年前在《自然》上提出的持续反向传播算法解决了这一问题:每隔一段时间,较少使用的神经元被重新初始化为小的随机权重,使得变异持续、可塑性保持。
行动号召:让创造力和发现自动化
创造力与发现超越了监督学习、模式识别、预测甚至世界建模。这些东西重要,但仅凭它们无法带来发现。发现需要评估(来自人或明确目标)。当系统拥有明确提供的目标时,我们才能实现完全自主的AI。
Sutton的呼吁:如果我们想要AI科学家的全部力量,就应该与它们分享目标,使它们能创造、评估、发现,充分参与实现目标。让我们勇敢起来,让创造力和发现自动化。
Source: Rich Sutton on AI creativity and discovery - YouTube
相似文章
@ProfBuehlerMIT:我们在自进化人工智能科学家方面取得了突破,从'搜索'转向'原则性发现':科学发现…
MIT的研究人员发表了一篇关于自进化人工智能科学家的论文,这些科学家能够发现并调整自己的科学词汇,利用范畴论框架数学量化真正的创新,并将发现与单纯的搜索或检索区分开来。
@RichardSSutton: 26字苦涩教训:不要像AI历史上那样被人类知识分散注意力。相反,聚焦于...
Richard Sutton总结其苦涩教训:AI应专注于可扩展的方法如搜索和学习,而非融入人类知识。
AI是否变得太过"安全",以至于对创意工作实际上毫无用处?
文章认为,过于安全且受到审查的AI模型阻碍了创意探索,而开放模型则提供了更多的实验自由。
通往真正具备创造力的人工智能的主要路径(阅读时间:4分钟)
文章认为,真正的人工智能创造力可能需要类似于人类情感的主体体验和内在驱动力,这引发了关于创造具有类意识系统的重大伦理问题。
有基准却无度量——生成式人工智能应以现实效用为评估标准
本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具,旨在解决基准表现与部署成功之间的脱节问题。