Rich Sutton on AI creativity and discovery

Hacker News Top 2026/06/10 02:25 新闻

ai-creativity discovery generative-ai reinforcement-learning rich-sutton supervised-learning

摘要

Rich Sutton argues that generative AI trained by supervised learning cannot achieve genuine novelty and quality simultaneously, and that true discovery requires a 'vary, evaluate, select' mechanism found in reinforcement learning rather than pure imitation.

A new and possibly controversial perspective: In this video, I explain the sense in which generative AI trained by supervised learning is incapable of making novel discoveries. https://t.co/LhAU6AyDkh The text of the speech: AI Creativity and Discovery Good day ladies and

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:44

The text of the speech:

AI Creativity and Discovery

Good day ladies and

TL;DR: 生成式AI（如大语言模型）只能产生“新”或“好”的结果，无法同时兼得；真正的创造力与科学发现需要评估与选择性保留，其核心是“变异、评估、保留”三步机制，这种能力存在于强化学习等范式中，而不仅仅是监督学习。

AI创造力与发现：超越模仿式学习

Rich Sutton在演讲中从一个经典笑话切入：研究成果被评审评价为“既有新意又好，但好的部分没有新意，有新意的部分不好。” 他直言，这一评价恰好适用于当今大部分AI——尤其是生成式AI，包括大语言模型、图像视频模型以及学习世界模型的新方法。这些系统从大量示例中学习，生成与示例相似的输出，但永远无法在“新”与“好”之间取得平衡。

生成式AI的局限：新意与质量不可兼得

生成式AI可以产出既有新意又好的输出，但 不能同时。在多数任务中（如从互联网查找答案、总结文档），我们不希望AI有“新意”，因为“好”来自源材料。如果AI超越了源材料，就变成“幻觉”——我们通常不欢迎这种编造。

唯一的例外是创意场合（如编故事、生成新图像）。此时AI的输出之所以看似有“新意”，是因为处理过程引入了随机性：每次随机选择不同方向，产生不同轨迹。然而，这些轨迹要么基于数据（因而“好”），要么基于随机性（因而“新”），无法同时兼备。这正是“新意与好不可兼得”的本质。

对于普通应用，这种限制并非致命——生成式AI可以更快、更便宜、更可定制，比模仿的对象更有用。但在科学和数学领域，笑话中的评价是毁灭性的。这些领域需要真正的创造力和发现，而生成式AI——或称“模仿式AI”——永远无法满足这一需求。

真正的创造力来自“发现”机制

Sutton列举了能够实现真正发现的系统：AlphaGo（第37步改变世界）、AlphaZero（brilliant国际象棋风格）、GT Sophie（模拟赛车）、AlphaFold、AlphaProof、AlphaCode，以及RL lift（网约车匹配优化）。这些系统都产出了既新又好的结果。它们之所以能超越单纯监督学习，是因为具备一个额外特性：发现。

发现的实质是“尝试许多东西，看看哪些有效，并保留效果最好的”。这并非新概念——自然选择中的进化、科学方法、日常学习都遵循这一机制。心理学称之为工具性学习或操作性条件反射；机器学习中则称为强化学习。任何涉及“生成并测试、保留最佳”的流程都包含发现。

发现的三步核心：变异、评估、选择性保留

变异：盲目或部分有信息的生成新尝试。
评估：基于明确目标判断结果的价值。
选择性保留：只保留评估后被认为“好”的结果。

生成式AI缺少评估步骤。它的生成器通过监督学习预训练，运行时无法评估自己生成的内容。没有评估就没有选择性保留，也就没有发现。真正的创造力不仅需要随机生成，还需要价值识别和保留。当评估由人类提供（如从一堆AI图片中挑一张）时，整体过程是一个发现；更强大的情况是评估来自明确的目标，例如：

棋步导致将死 → 好；否则 → 不好
数学步骤导向证明 → 好；否则 → 不好
世界中的行动获得高奖励 → 好；否则 → 不好
基因型复制更多 → 更好
理论更好地解释数据 → 更好

在这些情况下，系统有明确已知的目标，因而能自主完成发现。

变异不必完全盲目，但必须有盲目成分

一位好科学家不会随机选择理论，但也不能完全确定——必须对答案所在位置有不确定性，这样找到答案时才叫发现。实践中，变异总是一部分有信息、一部分盲目，真正对应发现的正是盲目部分。

反向传播与持续变异

现代深度学习中的反向传播算法看似无法进行发现，因为它是确定性的。但网络使用小的随机初始化，提供了一次初始变异。这个初始化常被轻描淡写，实际是必要部分。然而，变异只在初始化时发生一次，之后网络会丧失可塑性。Sutton团队几年前在《自然》上提出的持续反向传播算法解决了这一问题：每隔一段时间，较少使用的神经元被重新初始化为小的随机权重，使得变异持续、可塑性保持。

行动号召：让创造力和发现自动化

创造力与发现超越了监督学习、模式识别、预测甚至世界建模。这些东西重要，但仅凭它们无法带来发现。发现需要评估（来自人或明确目标）。当系统拥有明确提供的目标时，我们才能实现完全自主的AI。

Sutton的呼吁：如果我们想要AI科学家的全部力量，就应该与它们分享目标，使它们能创造、评估、发现，充分参与实现目标。让我们勇敢起来，让创造力和发现自动化。

Source: Rich Sutton on AI creativity and discovery - YouTube

Rich Sutton on AI creativity and discovery

AI创造力与发现：超越模仿式学习

生成式AI的局限：新意与质量不可兼得

真正的创造力来自“发现”机制

发现的三步核心：变异、评估、选择性保留

变异不必完全盲目，但必须有盲目成分

反向传播与持续变异

行动号召：让创造力和发现自动化

相似文章

@ProfBuehlerMIT：我们在自进化人工智能科学家方面取得了突破，从'搜索'转向'原则性发现'：科学发现…

@RichardSSutton: 26字苦涩教训：不要像AI历史上那样被人类知识分散注意力。相反，聚焦于...

AI是否变得太过"安全"，以至于对创意工作实际上毫无用处？

通往真正具备创造力的人工智能的主要路径（阅读时间：4分钟）

有基准却无度量——生成式人工智能应以现实效用为评估标准

提交意见反馈