下一个范式（7分钟阅读）

TLDR AI 2026/06/29 00:00 新闻

摘要

文章认为，在多样化的强化学习环境中对数百万可验证任务进行AI训练可能实现通用人工智能，并且扩展规模可能克服当前如样本效率低下等限制。文章还探讨了由于缺乏可重复训练的环境，计算机使用方面的进展为何较为缓慢。

AI实验室正押注，通过在数百万多样化的任务上扩展基于可验证奖励的强化学习（RLVR）来实现人工通用智能，但这种范式在缺乏确定性模拟器的领域遇到了障碍。真正的持续学习需要超越临时的上下文记忆，并将学习结果重新融入模型本身的权重中。

查看原文

查看缓存全文

缓存时间: 2026/06/29 17:15

# 下一个重大突破将是能边工作边学习的AI 来源：https://www.dwarkesh.com/p/the-next-paradigm 以下是各大实验室目前正下重注的研究方向：如果我们训练AI在数千个不同RL环境中完成数百万个可验证的任务，那么基本上就等于建造了AGI。因为这样的训练会培养出通用的解决问题能力（比如如何在错误、失误和模棱两可的情况下，连续数周持续推进一个开放式任务）。对这个愿景持乐观态度的人会认为，任何我们可能觉得当前学习范式存在根本缺陷的地方——比如数据效率低下和缺乏持续学习——都可以通过进一步扩大训练规模来碾压，就像自然语言处理中所有所谓的“根本性”研究问题，都在涌入LLM的算力洪流面前崩溃一样。是的，这些模型在训练期间的样本效率只有人类的百万分之一（https://www.dwarkesh.com/p/the-sample-efficiency-black-hole）。但训练是一次性成本，可以分摊到数十亿用户会话中。真正重要的是模型在*单个会话内*有多聪明、多通用、样本效率多高，而这一点显然随着我们进行更多RL训练而不断改善。AI能够解决越来越艰巨的问题，覆盖越来越长的时间跨度——任何用过这些模型写代码的人都知道。同样，持续学习——定义为模型权重在部署后得到更新——可能根本就没必要。再说一次，因为如果情境内学习在越来越长的时间跨度中变得如此出色，那我们就不需要将经验蒸馏回权重来实现在职学习。人们常说，员工入职六个月甚至更久才能产生净生产力，所以显然在线学习对于胜任工作是必要的。但如果你能把那六个月塞进上下文窗口呢？Transformer架构已经出现了大量创新，大幅增加了可存储的上下文长度。再过几年进步，我们为什么不能拥有任意大的上下文窗口？为了探讨这是否可行，我想先绕个弯，问一个关于当前AI进展本质的问题，我发现它既令人困惑又有趣。为什么计算机使用方面的进展如此缓慢？计算机使用显然是可验证的（想要的Etsy商品有没有被下单、我活动所需的企业服务有没有预订好、我的税有没有提交）。那么，计算机使用的进展比编程、数学等同样可验证的领域慢得多，这不是很奇怪吗？我相信原因有很多，其中之一是模型在预训练中接触到的高质量多模态数据少得多，而且视频消耗上下文窗口的速度快得多。[1] 但我认为一个被严重低估的原因（同时也揭示了AI进步之河将缓慢侵蚀的峡谷壁）是：一个领域光可验证还不够，它还必须非常“可重复刷”——意思是你能在一个确定、可回放的模拟器上并行运行大量试错。如果你想让模型在编程上更出色，你可以创建一个环境，里面有个软件仓库，缺少某个你要求AI实现的功能，然后让一千个并行代理各自拿着相同的容器副本去解决问题。[2] 但这在计算机使用上行不通——至少不是轻而易举。你不能让一千个代理同时去试Amazon.com上的同一个结账流程。因为安迪·贾西会发现并检测到你的机器人，然后把你封掉。你可以通过克隆Slack、Gmail以及其他常用应用和网站来解决这个问题。但至少目前，这是一种非常劳动密集且不可扩展的方式来构建环境。当然，一旦AI在编程方面变得足够优秀，能够自己以极高的保真度构建这些克隆，那么计算机使用肯定会取得巨大进展。而且这种流程还能一箭双雕，因为让AI从头重建（https://www.mechanize.work/blog/the-upcoming-gpt-3-moment-for-rl/）整个复杂应用本身也是编程方面一个很好的RL目标。但尽管计算机使用本身可能很快就会被解决，它目前的缓慢进展告诉我们：除非你能为一个领域构建一个非常可回放的训练目标，否则模型很难取得多少进展。之所以如此，当然是因为模型在训练期间的样本效率极低。这正是我在上次的独白（https://www.dwarkesh.com/p/the-sample-efficiency-black-hole）中指出的。在计算机使用方面，我们或许可以通过构建这些可大规模复现的确定模拟器来弥补样本效率的不足。但对于AGI需要学习的许多其他不同技能，我们根本做不到这一点。我们如何训练AI来创办一家企业？如何让AI非常擅长打赢官司？或者在市场上进行盈利的日内交易？又或者帮助候选人赢得选举？这些试错需要与世界互动，并且无法简单地在数据中心内重现。而且外部循环的验证可能需要数月或数年的真实世界行动才能得出结果，并且无法通过并行扰动模型数千次动作来重新观察，从而隔离出模型究竟做了什么才有效。应对这种无重置（https://arxiv.org/abs/2104.11203）的非平稳环境是RL中一个已知的开放问题。我并没有指出什么新东西。但我确实想强调，由于世界上大多数领域的数据具有特殊性和稀疏性，你需要样本效率才能变得熟练。如果AI要发展出人类拥有的所有技能，甚至人类没有的技能，那么它们就需要能够从非结构化、不可验证、模棱两可的方式中，从稀缺的真实世界互动所揭示的信息中学习。因为在许多领域，相关的训练信息根本不存在于其他任何形式中。什么是RL环境，能让AI像林登·约翰逊一样擅长政治，或者像埃隆·马斯克一样擅长建立航天发射业务？各大实验室正押注RLVR会泛化到所有这些领域。如果你在足够多的容器化、可复现的环境中训练，就会产生一个非常通用的智能体，能够在会话内制定和执行计划，快速从新信息中学习，甚至掌握新技能。如果你把这个经过无尽RLVR训练的AI投放到1948年的得克萨斯州政坛，它可能会比LBJ更懂得如何赢得参议院席位；如果你在2002年给它一亿美元并让它放手去做，它可能会为你打造出SpaceX。 RLVR能否泛化得*如此*之好，是一个开放的经验问题：如果各实验室从花费数十亿美元在RL环境上增加到数万亿美元，你能否得到一个在上下文窗口内运行的、完全通用、类似人类的智能？迪奥（Dario）在我们一起做播客时给出了一个意味深长的引述，我认为这暗示RLVR泛化并非如此无限强大。当他在解释为什么模型在长上下文下性能往往会下降时，他说： > 你训练时的上下文长度和提供服务时的上下文长度是不同的。如果你在小上下文长度上训练，然后试图在大上下文长度上提供服务，可能就会出现这种退化。也许我过度解读了，但他似乎在说，短跨度RL训练不一定能泛化到长跨度RL表现。如果我们不能从短跨度泛化到长跨度，那么智能体又该如何从大量的白领任务训练，泛化到比如说被投入真实世界，像山姆·沃尔顿一样从零开始创办一家企业？而且，即使经过足够多的情境内经验，AI能成为爱因斯坦或亨利·福特，但如果无法将这些学到的知识反馈回权重，那么所有这些都将是短暂且白费的。实验室大约30%-50%的算力用于推理，而这部分算力目前并没有真正为提高模型做任何有建设性的事情。多么浪费！这甚至比听起来更糟。因为只有在部署中，模型能够学习到的最有价值的信息才会显现（“我正被使用的组织里实际发生了什么？他们用我来做什么？我在真实世界中容易犯哪种错误？”）我们有一个天才般的研究生，却从未被允许去实习。而我们不断给它提供更多课堂案例，形式是在环境上进行RL训练。这既奇怪又浪费：我们没有利用这些本可以通过模型在经济中广泛部署而积累起来的经验，以及模型接触到数百万个不同任务和大量隐性组织及领域知识的机会来训练AI。但这种持续学习需要回到权重上。AI不能只是不断积累KV缓存，随着从越来越多的用户那里学习而增长。这不可扩展，也不是人类的学习方式。我们并没有参数和激活之间的分离。我们的大脑也没有某种快速权重表示会随着一生中学习更多东西而越来越突出。当我们学习时，显然存在某种压缩，这反而有助于泛化和领悟。事实上，有一些人（https://www.amazon.com/Mind-Mnemonist-Little-Memory-Foreword/dp/0674576225）拥有自闭症学者般的记忆力，多年后仍能回忆随机数字表或无意义音节——基本上就是模型在上下文中存储信息的保真度。而这种庞大的数量阻碍了这些人理解抽象和隐喻的能力。人类的持续学习更多是关于将正确的直觉和大局观刻入权重，而不是将所有观察都挂在嘴边。但一旦你转向权重，你就必须放弃情境内学习的样本效率。因为梯度更新极其样本低效，所有成功推出的在线学习模型都必须从数百万用户那里学习相同的东西。例如，Cursor Tab模型通过每天预测超过4亿次请求的同一目标（即哪些编辑被接受）来进行在线学习。至少到目前为止，我们还没有看到模型为不同用户在线学习不同类型的东西，因为虽然单个会话可能产生比人类学习所需更多的数据，但这不足以训练一个更强大的AI。当前的在线学习只能用于非常有限的用例。但持续学习的全部意义在于，世界非常复杂，每份工作、每个公司、每个问题都不同，你需要你的智能能够学习与特定部署相关的具体信息，而这些信息根本无法塞进一个共享的训练运行中。比如你的组织里一切如何运作和配合，如何与周围的基础设施和其他人合作以推进更大的项目，常见的失败模式是什么，等等。这就是样本效率和持续学习实际上是深层关联问题的原因。模型在“在职”时能获得的相对数据很少。要从这些数据中学习就需要样本效率。模型可以在上下文中做到这一点，但由注意力机制即时构建的“快速权重”[3]在内存方面扩展性很差。因此，我们需要能够允许某种中间表示的架构创新。我之前提到过，已经有很多不同的可行思路，从稀疏注意力到KV缓存压缩。在我看来，架构并非持续学习的根本瓶颈。也许瓶颈在于损失函数。如何根据从某个特定会话中学到的信息来更新权重（即改进模型本身）？即使是天真地看，似乎也有很多应该可行的想法。最近很多人都在讨论on-policy self-distillation (OPSD)（https://x.com/dwarkesh_sp/status/2062353335529935114）。如果你想了解更多关于它如何工作，可以看看几周前Sasha Rush给我做的这个即兴黑板讲座（https://youtu.be/wxOZWD6wYVY）。但稍微总结一下这个解释：这个想法是鼓励基础模型在尝试解决某个真实世界问题时，做出与积累了长会话上下文的模型相同的预测。这个过程的全部意义在于，将会话中学到的东西蒸馏回权重本身。这比RLVR有两个好处。第一，OPSD不需要外部循环的可验证奖励。我们只需要一个能在上下文窗口内学到正确东西的模型。只要我们有这个，我们就可以训练基础模型去匹配我们经验丰富的老教师模型（它在会话中积累了所有经验）。第二，OPSD提供了比朴素RL密集得多的监督信号——不是将一个单一的奖励投射到整个轨迹上，而是可以在教师和学生之间的每个token概率差异上进行训练[4]。对于持续学习，OPSD也比监督微调（SFT）更好。你能想象到的最天真的SFT版本是训练基础模型预测会话中观察到的所有token。但这是一个毫无意义的学习目标——你提高工作水平的方式不是完美回忆每一天发生的一切，而是巩固那些让你工作做得更好的少数洞察和知识。 RL训练没有这种失败模式，它非常擅长将梯度更新集中在与正确结果相关的内容上——这就是为什么RL的更新极其稀疏（https://fireworks.ai/blog/frontier-rl-is-cheaper-than-you-think）。这对于持续学习来说是一个非常重要的特性，因为当你在职学习时，你不想覆盖和遗忘基础模型知道的所有其他东西。我几个月前写了一篇文章（https://www.dwarkesh.com/p/bits-per-sample），认为RL每次样本学习的信息量比监督学习少得多。但这可能不是坏事而是好事——你只对模型做出实现结果所必需的最小改变，不多不少。OPSD保留了RL的这个特性，你不会像监督学习那样抛向教师分布，而是只提取在现实世界任务上达到相同结果所必需的知识。所以OPSD是解决样本效率问题的一种方法：你可以利用这稀缺的真实世界经验，将所有信号压缩到一个微小的、有针对性更新中。但还有另一个更具推测性的想法。我们称之为“梦境”[5]。如果AI能够建立一个良好的现实模拟环境，在其中排练新技能、尝试替代策略并强化有效的东西，那么它可以在相同的墙钟时间内经历数量级更多的模拟样本。

下一个范式（7分钟阅读）

相似文章

@dwarkesh_sp: 下一个训练范式是什么样的？0:00:00 – 实验室正在下的重大研究赌注 0:02:12 – Grindabili…

加速物理AI的下一个阶段（3分钟阅读）

观点：Agentic AI系统是实现AGI的可预见路径

为 AGI 及其未来做好准备

Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

提交意见反馈