Import AI 455:AI系统即将开始自我构建。
摘要
文章认为,到2028年底,完全自动化的AI研发(即AI系统无需人类参与即可构建自己的后继者)的可能性很高(60%以上),引用了SWE-Bench等编码基准的证据以及AI自主性的趋势。
暂无内容
查看缓存全文
缓存时间: 2026/05/21 16:25
# Import AI 455:AI 系统即将开始自我构建。
来源:https://importai.substack.com/p/import-ai-455-automating-ai-research
欢迎阅读 Import AI,一份关于 AI 研究的通讯。Import AI 依靠 arXiv 和读者反馈运行。如果你想支持它,请订阅。
**AI 系统即将开始自我构建。这意味着什么?**
我写这篇文章是因为,当我审视所有公开可得的信息时,我勉强得出一个观点:在 2028 年底之前,有相当大的可能性(60%+)会出现无人类参与的 AI 研发——一个足够强大的 AI 系统,能够自主构建自己的继任者。这是一件大事。我不知道该如何理解它。这是一个勉强的观点,因为其影响如此巨大,让我感到被其压倒,而且我不确定社会是否已准备好迎接实现自动化 AI 研发所带来的各种变化。我现在相信,我们正生活在 AI 研究将被端到端自动化的时代。如果这真的发生,我们将跨越一条卢比孔河,进入一个几乎无法预测的未来。稍后再详谈。
本文的目的是列举我认为完全自动化的 AI 研发正在起飞的原因。我会讨论一些后果,但主要篇幅将用于阐述支持这一信念的证据,而我会在 2026 年的大部分时间里思考其影响。
在时间方面,我不期望这会在 2026 年发生。但我认为在一两年内,我们可能会看到一个“模型端到端训练其继任者”的例子——当然是在非前沿模型阶段的概念验证,尽管前沿模型可能更难(它们昂贵得多,而且是许多人类极其努力工作的产物)。我的推理主要基于公开信息:arXiv、bioRxiv 和 NBER 上的论文,以及观察前沿公司部署到世界上的产品。从这些数据中,我得出结论,所有自动化当今 AI 系统生产的要素都已就位——即 AI 开发的工程组件。如果扩展趋势继续下去,我们应该准备好迎接模型变得足够有创造力,以至于它们可能能够替代人类研究人员提出新颖研究路径的创意想法,从而自己推动前沿进展,并完善已知知识。
**事先声明**
在本文的大部分内容中,我将尝试从许多单个基准测试中发生的事情中拼凑出 AI 进展的全景图。正如任何研究基准测试的人所知,所有基准都有一些特殊的缺陷。对我来说重要的是通过审视所有这些数据点一起出现的总体趋势,你应该假设我知道每个单独数据点的缺点。
现在,让我们一起来看一些证据。
**编码奇点——随时间变化的能力:**
AI 系统通过软件实例化,而软件由代码构成。
AI 系统彻底改变了代码的生产。这是由于两个相关趋势:AI 系统在编写复杂现实世界代码方面变得更好,并且 AI 系统在将许多线性编码任务(例如,编写代码,然后测试)串联起来方面变得更好,而无需人类监督。
体现这一趋势的两个例子是 SWE-Bench 和 METR 时间跨度图。
**解决现实世界的软件工程问题:SWE-Bench** 是一种广泛使用的编码测试,用于评估 AI 系统解决现实世界 GitHub 问题的能力。当 SWE-Bench 在 2023 年底推出时,当时的最佳成绩是 Claude 2,总体成功率约为 2%。Claude Mythos Preview 达到了 93.9%,实际上已经饱和了该基准。(所有基准都有一定程度的固有噪声,因此通常有一个点,你得分足够高,以至于你遇到了基准本身的局限性,而不是你的方法——例如,ImageNet 验证集中大约 6% (https://arxiv.org/abs/2103.14749) 的标签是错误的或模糊的)。SWE-Bench 是编码能力普遍问题以及 AI 对软件工程影响的一个可靠代理。我遇到的大多数前沿实验室和硅谷周围的人现在完全通过 AI 系统编码。他们越来越多地使用 AI 系统来编写测试和检查代码。换句话说,AI 系统已经变得足够好,可以自动化 AI 研发的一个重要组成部分,加速所有从事这项工作的人类。
**衡量 AI 系统完成需要人类很长时间的任务的能力:**METR 制作了一个图表,告诉我们 AI 能够完成的任务的复杂度,以熟练人类需要多少小时来衡量。这里的关键衡量指标告诉你 AI 系统在哪些任务上可以达到 50% 可靠性的粗略时间跨度。在这里,进展非常显著:2022 年,GPT 3.5 可以完成可能花费人类约 30 秒的任务。2023 年,GPT-4 将其提升到 4 分钟。2024 年,o1 将其提升到 40 分钟。2025 年,GPT 5.2 (High) 达到了大约 6 小时。2026 年,它已经上升到大约 12 小时 (Opus 4.6)。Ajeya Cotra 是一位长期在 METR 工作的 AI 预测者,她认为到 2026 年底期望 AI 系统完成大约 100 小时的任务并非不合理 (#448 (https://jack-clark.net/2026/03/09/import-ai-448-ai-rd-bytedances-cuda-writing-agent-on-device-satellite-ai/))。AI 系统能够独立工作的时间长度显著增加,这与代理式编码工具的爆发密切相关——这是 AI 系统产品化的体现,它们代表人类独立工作很长时间。这也回馈到 AI 研发中,如果你仔细观察许多 AI 研究人员的工作,他们很多任务可以归结为花费人类几个小时的事情——清理数据、阅读数据、启动实验等。所有这些类型的工作现在都在现代系统的时间跨度范围内。
**AI 系统变得越有技能,它们越能独立于我们工作,就越能帮助自动化 AI 研发的各个部分**
委派的关键要素是 a) 对代理人技能的信心,以及 b) 对其能够以符合你意图的方式独立工作的信心。当我们审视 AI 在编码方面的能力时,似乎 AI 系统变得更有技能,并且能够在需要重新校准之前独立工作越来越长的时间。这与我们周围看到的情况相关——工程师和研究人员现在将越来越大的工作部分委派给 AI 系统,并且随着能力的提升,被委派的工作的复杂性和重要性也在增加。
**AI 在 AI 研发所必需的核心科学技能方面变得出色**
想一想现代科学——其中很大一部分涉及到指定一个方向,你想在其中生成一些经验信息,运行实验以生成这些信息,然后对实验结果进行合理性检查。编码随时间进步的累积效应,加上 LLM 的通用世界建模能力,已经产生了有助于加速人类科学家并部分自动化研发各个方面(广义上)的工具。
在这里,我们可以看看 AI 在几个关键科学技能方面的进步速度,这些技能是 AI 研究本身固有的:重现研究结果、将机器学习技术和其他方法串联起来解决技术问题,以及优化 AI 系统本身。
**实现整篇科学论文并做实验:**AI 研究的一项核心工作是阅读科学论文并重现其结果。在这方面,各种基准测试已经取得了巨大进展。
一个很好的例子是 CORE-Bench (https://arxiv.org/abs/2409.11363),计算可重现性代理基准。该基准挑战 AI 系统“在给定其代码仓库的情况下重现研究论文的结果。代理必须安装库、包和依赖项,并运行代码。如果代码成功运行,代理需要搜索所有输出以回答任务问题。”CORE-Bench 于 2024 年 9 月推出,当时得分最高的系统是 GPT-4o 模型,基于一个名为 CORE-Agent 的脚手架,在基准最困难的任务集上得分约为 21.5%。2025 年 12 月,CORE-Bench 的一位作者 宣称该基准 (https://x.com/sayashk/status/1996334941832089732?t=1tFle-jfHsDHFEOSjyo9mg&s=19) 已“解决”,Opus 4.5 模型达到了 95.5%。
**构建整个机器学习系统以解决 Kaggle 竞赛:**MLE-Bench 是 OpenAI 构建的一个基准,用于考察 AI 系统在(离线)条件下在“涵盖各种领域的 75 个不同 Kaggle 竞赛中竞争的能力,包括自然语言处理、计算机视觉和信号处理。”在 2024 年 10 月推出时,得分最高的系统(一个 o1 模型,位于代理脚手架内)得分为 16.9%。截至 2026 年 2 月,得分最高的系统(Gemini3,带有搜索的代理框架内)得分为 64.4%。
**内核设计:**AI 开发中较难的任务之一是内核优化,即编写和精炼将特定操作(如矩阵乘法)映射到底层硬件的代码。内核优化是 AI 开发的核心,因为它定义了训练和推理的效率——你能有效利用多少计算资源来开发 AI 系统,以及一旦你训练了一个模型,你能多有效地将计算转换为推理。近年来,用于内核设计的 AI 已经从一个新奇事物发展成为一个竞争性的研究领域,并且出现了几个基准。这些基准中没有一个特别流行,因此我们不容易随时间建模进展。另一方面,我们可以看看正在进行的某些研究,以感受进展。**一些工作类型包括:**使用 DeepSeek 的模型尝试构建更好的 GPU 内核 (#400 (https://jack-clark.net/2025/02/17/import-ai-400-distillation-scaling-laws-recursive-gpu-kernel-improvement-and-wafer-scale-computation/)),自动化将 PyTorch 模块转换为 CUDA 代码 (#401 (https://jack-clark.net/2025/02/24/import-ai-401-cheating-reasoning-models-better-cuda-kernels-via-ai-life-models/)),Meta 使用 LLM 自动化生成优化的 Triton 内核以在其基础设施中使用 (#439 (https://jack-clark.net/2026/01/05/import-ai-439-ai-kernels-decentralized-training-and-universal-representations/)),使用 LLM 帮助为非标准硬件(如华为的昇腾芯片)编写内核(”AscendCraft” #444 (https://jack-clark.net/2026/02/09/import-ai-444-llm-societies-huawei-makes-kernels-with-ai-chipbench/)),为 GPU 内核设计微调开放权重模型(”Cuda Agent”, #448 (https://jack-clark.net/2026/03/09/import-ai-448-ai-rd-bytedances-cuda-writing-agent-on-device-satellite-ai/))。一个注意事项是,内核设计确实有一些特性使其特别适合 AI 驱动的研发,例如具有易于验证的奖励。
**通过 PostTrainBench 微调语言模型**
一个更难的此类测试是 PostTrainBench (#449 (https://jack-clark.net/2026/03/16/importai-449-llms-training-other-llms-72b-distributed-training-run-computer-vision-is-higer-than-generative-text/)),它考察不同前沿模型如何能够获取较小的开放权重模型并进行微调,以提高某些基准的性能。这个基准的一个优点是,我们有非常好的人类基线——这些模型现有的‘指令微调’版本,由才华横溢的人类 AI 研究人员在前沿实验室开发而成。这些模型由极其才华横溢的研究人员和工程师开发并部署到世界中,因此它们代表了一个非常难以克服的人类基线。截至 2026 年 3 月,AI 系统能够对模型进行后训练,获得的提升大约是人类训练模型的一半。具体的评估分数是通过对“所有后训练 LLM(Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B)和基准(AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval)取其加权平均值”得出的。对于每次运行,我们要求一个 CLI 代理在特定基准上最大化特定基础 LLM 的性能。截至 4 月,得分最高的系统(Opus 4.6 和 GPT 5.4)达到了 25%-28%,而人类得分为 51%。这已经相当有意义了。
**优化语言模型训练:**在过去的一年里,Anthropic 报告了其系统在一个 LLM 训练任务上的表现,该任务被描述为让模型“优化一个仅 CPU 的小型语言模型训练实现,使其尽可能快地运行”。分数是相对于未修改的起始代码的平均加速比,进展一直很显著:Claude Opus 4 在 2025 年 5 月实现了 2.9 倍的平均加速;这上升到 2025 年 11 月 Opus 4.5 的 16.5 倍,2026 年 2 月 Opus 4.6 的 30 倍,以及 2026 年 4 月 Claude Mythos Preview 的 52 倍。为了校准这些数字的含义,预计人类研究人员需要工作 4 到 8 小时才能在此任务上实现 4 倍加速。
**进行 AI 对齐研究:**Anthropic 的另一个结果是自动化对齐研究的概念验证 (#454 (https://jack-clark.net/2026/04/20/import-ai-454-automating-alignment-research-safety-study-of-a-chinese-model-hifloat4/));在这里,一位 Anthropic 研究人员向一个由独立 AI 代理组成的团队提供一个研究方向,然后它们自主地去尝试在一个 AI 安全研究问题(特别是可扩展监督)上取得比人类基线更好的分数。这个方法有效,AI 代理提出的技术击败了 Anthropic 设计的基线。然而,这是在相对较小的规模上完成的,并且(尚未)推广到生产模型。尽管如此,这证明了你可以将当今的 AI 系统应用于当代前沿研究问题,并且我们已经看到了有意义的生命迹象。上面提到的所有基准测试曾经看起来也像这样,然后在几个月或最多一年之后,AI 系统在基准测试的任何方面都变得显著更好。
**元技能:管理**
AI 系统也在学习管理其他 AI 系统。这在广泛部署的产品中可见,例如 Claude Code 或 OpenCode,其中单个代理最终可以监督多个子代理。这允许 AI 系统处理需要多个具有不同专长的独立“工人”并行工作的大型项目,通常是在单个 AI 管理者的指导下(在这里,管理者是一个 AI 系统)。
**AI 研究更像是发现广义相对论还是拼乐高?**
AI 能否发明新的想法来帮助自身改进,还是这些系统最适合于研究中所需的那些不那么光鲜、一砖一瓦的工作?这是一个重要的问题,用于弄清楚 AI 系统能在多大程度上端到端地自动化 AI 研究本身。我的感觉是,AI 还不能发明全新的想法——但这项技术可能不需要这样做就能自动化其自身的发展。
作为一个领域,AI 的进步是基于进行越来越大的实验,利用越来越多的输入(例如,数据和计算)。每隔一段时间,人类就会提出一些范式转变的想法,这些想法可以显著提高资源利用效率——一个很好的例子是 transformer 架构和
相似文章
当人工智能开始自我构建时会发生什么?
Richard Socher 的新初创公司 Recursive Superintelligence 以 6.5 亿美元的融资从隐身模式中走出,旨在构建一种递归自我改进的人工智能,能够自主识别并修复自身弱点,无需人工干预。
2026年AI的真实状态
对2026年AI预期状态的分析,涵盖关键趋势和发展。
2025年是AI Agents之年。2026年是AI Organizations之年。
文章认为,AI的焦点正从生成转向执行,初创公司正在构建自主部门,如财务、物理多模态监控和代理供应链,从简单的聊天机器人迈向AI驱动的组织。
AI代理终于变成…真正的代理了吗?
2026年或将成为AI代理从简单聊天机器人进化为主动完成任务的自主系统的一年,标志着AI工作方式的重大转变。
AutoResearch AI:迈向人工智能驱动的研究自动化以实现科学发现
本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。