当AI自我构建：我们在递归自我改进方面的进展

Hacker News Top 2026/06/04 16:20 新闻

recursive-self-improvement ai-safety ai-development anthropic autonomous-agents ai-acceleration benchmarks

摘要

Anthropic研究院发布了一项关于递归自我改进进展的分析报告，显示AI已在加速AI开发——工程师每季度的代码产出提升了8倍——并预测具备完全自主自我改进能力的AI系统或将比大多数机构所预期的更早到来。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:10

# 当AI开始构建自身来源：https://www.anthropic.com/institute/recursive-self-improvement 在AI发展史的大部分时间里，每一个开发环节都由人类主导。但在Anthropic，我们正将越来越多的AI开发工作委托给AI系统本身，这正在加速我们的工作进程。如果这一趋势持续推进，并获得充足的算力支撑，最终将指向这样一个AI系统：能够完全自主地设计并开发其自身的继任者。这就是所谓的*递归自我改进*。我们尚未到达这一阶段，递归自我改进也并非必然发生。但它的到来，可能比大多数机构所预期的更早。 [Anthropic研究院](https://www.anthropic.com/institute)利用公开基准测试数据以及Anthropic内部此前未披露的数据，揭示AI已经在加速AI系统的开发进程。仅举一例：如今，Anthropic工程师平均每季度提交的代码量是2021至2025年间的8倍。本文所探讨的技术趋势表明，AI系统在未来数年内将变得更加强大。这些趋势影响深远。能够自我构建的AI将成为技术史上的重大里程碑——它可能在科学、医疗等领域为世界带来[巨大福祉](https://www.darioamodei.com/essay/machines-of-loving-grace)。但完全意义上的递归自我改进，也可能增加人类失去对AI系统控制的[风险](https://www.darioamodei.com/essay/the-adolescence-of-technology)。如果系统能够完全自主地构建其继任者，我们对其进行安全防护、监控以及行为塑造的方式就变得愈发重要。 2021–2023 **构建第一个Claude** 早期，Anthropic的工作与其他科技公司并无二致：人们坐在笔记本电脑前编写代码和文档。 2023–2025 **聊天机器人** 人们开始借助早期聊天机器人处理部分工作，例如生成简短的代码片段，再将输出内容复制到文本编辑器中。 2025–2026 **编程智能体** 随着智能体能力的增强，它们开始能够独立编写和编辑代码，有时甚至能处理完整的文件。今日 **自主智能体** 智能体现在可以自行运行代码，并将数小时的工作委派给其他智能体。 20XX？ **闭合循环** 未来，智能体可能具备足够的能力，自行构建和训练模型。届时，未来版本的Claude可能由Claude自身持续迭代改进。 ### **来自外部世界的证据** AI模型的进步速度正在加快。AI系统[能够独立可靠完成的任务时长](https://metr.org/time-horizons/)大约每四个月翻一番，而此前的[翻番周期](https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/)约为七个月。2024年3月，Claude Opus 3能完成人类大约需要四分钟的软件任务；一年后，Claude Sonnet 3.7能处理约一个半小时的任务；再过一年，Claude Opus 4.6能应对12小时的任务。¹如果这一趋势延续，今年内，AI或许能完成一名熟练工程师需要数天才能完成的任务；到2027年，AI系统可能具备处理需要数周才能完成的任务的能力。同样的规律也体现在编程和研究基准测试上。基准测试衡量模型在特定领域的表现，当模型成绩接近满分时，该基准即被视为"饱和"。² [SWE-bench](https://www.swebench.com/)是一项针对真实软件工程场景的标准测试：它将一个实际的开源代码库和一份真实的缺陷报告交给模型，要求其编写代码修复问题并通过项目自身的测试。在短短两年内，模型的得分从个位数低分一路飙升，直至使该基准趋于饱和。 [CORE-Bench](https://arxiv.org/abs/2409.11363)测试模型能否复现已有研究成果，这是其开展原创研究的前提条件。它将某篇已发表论文背后的代码和数据交给AI模型，要求其重新运行所有步骤，并确认能否复现该论文的结果。2024年，AI系统成功复现结果的比例约为20%，而十五个月后，该基准已趋于饱和。负责衡量模型长时任务完成能力的METR[发现](https://x.com/METR_Evals/status/2052896621760004602)，Claude Mythos Preview能够持续工作"至少"16小时，"已达到\[METR\]现有任务所能衡量的上限"。公开基准测试在很大程度上揭示了这些系统的能力。但它们无法反映AI系统在加速AI开发本身方面所产生的影响。要了解这一点，我们需要来自Anthropic等AI公司内部的直接证据。 ### **来自Anthropic内部的证据** 构建一个前沿模型需要两大类工作：一是**工程**，包括编写代码、搭建基础设施、监督模型训练；二是**研究**，包括决定运行哪些实验、解读实验结果、确定下一步尝试哪些想法。在工程和研究两个维度上，呈现的图景高度一致。在工程方面，Claude能够接手一个描述模糊的问题并自行找到解决方案——人类提供目标，但不再需要提供方法。在研究方面，Claude在执行明确指定的实验时，已能与人类专家比肩，甚至超越他们。然而，在做出目标判断方面——无论是工程还是研究——Claude与人类之间仍存在显著差距。这正是当下AI与未来能够自主设计继任者的系统之间的鸿沟。在Anthropic，员工通常随着经验积累而承担更开放、更重要的任务。起初，他们执行别人指定的任务，例如*"导出按钮失效了，请修复它。"*积累经验后，他们被赋予一个目标，自行设计解决方案，例如*"调查为何网络在高负载下会变慢。"*在最资深的层级，他们则要决定哪些问题值得去解决：*"团队下个季度应该做什么？"*我们可以通过Anthropic的内部数据，了解Claude在处理这些不同类型任务方面已取得多大进展。 **Claude撰写了Anthropic相当大比例的代码。**截至2026年5月，我们合并入Anthropic代码库的代码中，超过80%由Claude编写。³在Claude Code于2025年2月以研究预览版上线之前，这一比例还仅为个位数。这一转变也体现在每位工程师的产出量上。从2021年到2024年，Anthropic成立的头四年间，每位工程师每天合并的代码行数保持不变；2025年，当Claude开始直接运行代码（而非仅提供建议供工程师复制粘贴）后，这一数字开始攀升。2026年，随着模型能够在更长的时间范围内自主工作，增速再度提升。这两个拐点在下图中清晰可见。2026年第二季度，典型工程师每天合并的代码量是2024年的8倍。⁴这是因为大量代码由Claude编写，工程师负责指导和审查，而非亲自敲键盘。 *条形图展示了从2021年Q2到2026年Q2，每人每季度贡献的代码量。图中标注了八款模型的发布时间节点：Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview（内部访问）以及Claude Mythos Preview。* 需要说明的是：代码行数是一个不够完善的衡量指标，因为它衡量的是数量而非质量。因此，2026年第二季度*每工程师每天8倍代码行数*，几乎可以肯定是对实际生产力提升的高估。尽管如此，它仍表明了一种加速趋势。在Anthropic，我们不会依据代码行数来考核员工；团队成员之所以产出更多代码，仅仅是因为他们在使用AI系统编写更多代码。代码量的增长，与员工主观感受到的生产力大幅提升相吻合。在2026年3月一项覆盖Anthropic研究团队130名员工的调查中，受访者的中位数估计，借助Mythos Preview，他们在所从事项目上的产出约为完全不使用任何AI模型时的4倍。⁵我们预计，3月份的实际提升幅度略低于此。⁶尽管如此，我们认为这一总体结论可信，且与我们的其他观察相符：Anthropic相当大比例的技术人员正在以数倍于无AI辅助时的速度完成核心工作。我们还观察到，Anthropic的员工正在借助Claude完成一些原本根本不会发生的工作，例如构建探索性工具、处理长期搁置的代码清理任务。举一个具体例子：2026年4月，Claude提交了800余项修复，将某类API错误减少了整整一千倍。监督Claude完成这项工作的工程师估计，若由人工完成，需要四年时间；修复他人代码中的缺陷既繁琐又耗时，而人类难以在脑海中同时保持如此大量陌生上下文的清晰认知。 > 大约一年前，我开始大力推进"Claude化"。这是一段疯狂的历程，距我上次亲自写代码已经过去大约5个月了。 *Anthropic员工\** **Claude编写的代码"质量上乘"，且持续提升。**"高质量代码"包含两层含义：它能正常运行，且以其他工程师能够理解并在此基础上继续开发的方式编写。在第一个标准上，证据一目了然。过去一年，Anthropic员工在任务进行中纠正、重新指导或接管Claude的频率持续下降，即便是在最复杂、最开放的任务上也是如此——这些任务没有明确的规格说明，工程师事先也不知道答案应该是什么样的。从下图Claude不同难度任务的成功率变化趋势中，这一点显而易见。Claude编写的代码确实能用。 *折线图展示了Claude Code在四类不同任务——简单任务、常规任务、实质性任务和开放性问题——上的会话成功率，涵盖六款模型：Claude Sonnet 4.5、Claude Opus 4.5、Claude Opus 4.6、Mythos Preview（内部访问）、Mythos Preview以及Claude Opus 4.7。* ***如何解读此图：**会话成功与否由Claude作为评判方来确定；若Claude Code智能体明确完成了用户任务且无需纠正，则视为成功。工作负载的变化可能导致成功率出现短期波动。* 在最开放的任务上，Claude的成功率于2026年5月达到76%，六个月内提升了50个百分点。举一个这一难度级别的任务案例：一次常规升级导致数万个训练任务相继崩溃。工程师将这一线上事故交给Claude处理，提供的信息仅有少量文本内容和集群访问权限。Claude逐一排查运行中的任务，逐一测试各环境配置，最终定位到触发崩溃的那个生僻的调试标志，可靠地复现了问题，并确认了修复方案。仅用约两小时，Claude就完成了通常需要两到三天的工作。第二个标准是编写其他工程师能够理解并在其基础上继续开发的代码。在这方面，人类与AI之间的差距依然存在，但正在快速缩小。Anthropic内部员工对此尚未形成完全一致的看法，但许多人认为，Claude编写的代码在2025年底仍略逊于Anthropic人类工程师编写的代码，而如今已大体旗鼓相当。我们预计，在一年之内，其质量将超越人类。这也改变了Anthropic审查自身代码的方式。现在，对代码库的变更提案在合并之前，须经过一个自动化Claude审查工具的检查，该工具会识别缺陷、安全漏洞及其他问题。借助这一工具，我们进行了一项回溯性分析，发现若对代码库的每次变更都进行自动化Claude审查，将能在问题进入生产环境之前，拦截[claude.ai](http://claude.ai/)过去约三分之一的历史事故背后的缺陷。编写这些代码的工程师，是全球最顶尖的系统构建者。而Claude，正在捕捉他们曾经疏漏的错误。 > Claude编写的代码在2025年底尚略逊于Anthropic人类工程师的代码，如今已大体旗鼓相当，我们预计在一年内其质量将全面超越人类。 **Claude擅长围绕既定目标执行实验。**每次Anthropic发布模型时，我们都会进行同一项测试：给Claude一段用于训练小型AI模型的代码，要求其在通过相同正确性检验的前提下，尽可能提升代码的运行速度。目标和成功指标均预先固定，Claude的任务就是通过重写代码、运行、计时、反复迭代来寻找加速方案。这是一个微缩版的实验研究循环。2025年5月，[Claude Opus 4](https://www-cdn.anthropic.com/6d8a8055020700718b0c49369f60816ba2a7c285.pdf)相对初始代码平均实现了约3倍的提速。到2026年4月，[Claude Mythos Preview](https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf)已实现约52倍的提速。作为参照，一名有经验的人类研究员需要四到八小时才能达到4倍提速。⁷在研究工作流的这一环节——对明确定义的实验进行优化——Claude在不到一年的时间内，从极具助益进化为超越人类。 > 当前的格局大致是"人类提出想法，模型以比以往快一个数量级的速度实现、测试和评估这些想法"。 **Claude在自主提出实验方案方面日益精进。**2026年4月，Anthropic[发布](https://alignment.anthropic.com/2026/automated-w2s-researcher/)了首个展示Claude端到端主导开放性研究项目的案例。Claude驱动的智能体被赋予一个AI安全领域的开放性问题——大致是：*弱模型能否可靠地监督强模型？*——然后被放手去解决它。这一过程涉及提出假设、验证假设、与并行智能体分享发现、迭代推进。该任务有明确的性能"下限"和"上限"：下限是弱监督者独立工作的表现，上限是强模型在用正确答案训练后的表现。两名人类研究员用大约一周时间，弥合了约23%的差距；而智能体们经过800个累计工时、耗费约18,000美元算力，弥合了97%的差距。这项工作有一些说明：结果未能完全迁移到生产规模的模型上，且人类仍需选定问题并设计评分标准。但在这些边界之内，每一个实验都由智能体自行设计。方向设定是人类发挥实质性作用的唯一环节。 > 在1至2天的时间里，Claude完成了这一切，几乎不需要我的帮助。我想，如果一位初级同事能在同等时间内带着这样的成果回来，我会颇为印象深刻。未来已至。 **Claude在引导研究会话走向研究发现方面日益精进。**我们分析了真实的Claude Code会话记录（时间跨度为2026年1月至3月），这些会话中，Anthropic研究人员正与Claude共同处理开放性探究问题，例如排查训练任务持续崩溃的原因，或找出模型在某项基准测试中表现不佳的缘由。在每个案例中，我们都发现了研究人员走弯路的时刻：他们追寻了一个让会话偏离正轨的方向，直到最终重回正确轨道。随后，我们仅向不同版本的Claude展示会话偏离之前的工作内容，并询问它接下来会怎么做。另一个Cl

当AI自我构建：我们在递归自我改进方面的进展

相似文章

OPENAI："我们也在当今系统中看到了递归自我改进的早期迹象"

Anthropic 警告称，AI 很快将能够在无需人工干预的情况下自我改进

递归自我改进的首个实验证据（3分钟阅读）

@AnthropicAI: 这一切都不能保证递归自我改进即将到来。目前还不清楚Claude是否具备研究能力……

@tferriss: “我们只需要在未来几年保持领先，因为到2028年，我们将实现递归自我改进，届时…”

提交意见反馈