@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766
摘要
文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。
查看缓存全文
缓存时间: 2026/05/13 08:18
当 AI 智能体学会自我工程化
在过去的几周里,我们大量讨论了 AI 的“约束机制”(AI harnesses):即由工具调用、错误处理、内存管理、模型路由和验证步骤构成的脚手架,它们使得智能体应用程序变得可靠。
虽然这些约束机制已将 AI 引入生产环境,但它们主要依赖于人工工程。因此,智能体的改进速度目前受限于人类编写和完善这些基础设施的速度。
新一代的自我改进智能体旨在消除这一人为限制。这些模型不再作为固定系统中的被动组件,而是充当自身的工程师。它们修改自身的代码以构建更稳健的脚手架,从基础设施的消费者转变为积极的生产者。
达尔文-哥德尔机器:通过进化进行引导启动
当前的智能体系统依赖于固定的、手工定制的机制。开发者通常编写代码来决定模型如何处理输入。这包括决定何时检索信息、如何使用工具、如何反思其响应以及如何错误处理。
这种方法比较脆弱,且智能体的改进受限于人类的预见能力。如果开发者没有预测到特定的需求,就无法为其编码解决方案。这限制了智能体在不断的人类干预以重写底层逻辑之外的进化能力。
由 Sakana AI 推出的达尔文-哥德尔机器(Darwin-Gödel Machine, DGM)将智能体改进视为一个开放的进化搜索过程。它从基线智能体脚手架开始,逐步探索修改对其性能的影响。
DGM 维护着一个成功的智能体变体档案,称之为“垫脚石”。这防止了系统陷入死胡同,允许其返回之前成功的代码版本并向新方向分支。
在实践中,DGM 使用大型语言模型(LLM)对其自身的 Python 代码库提出改进建议。它可能会添加补丁验证步骤,改进文件查看功能,或实施更详细的历史日志。这些是对智能体运行方式的结构性修改。
这种自我修改周期在编码任务上带来了显著的性能提升。通过自主重写自己的代码,DGM 将其 SWE-bench 得分(一个衡量真实世界 GitHub 问题的基准测试)从 20% 提高到 50%。
它还将其多语言编码(另一个具有挑战性的编码基准测试)得分从 14.2% 提高到 30.7%,超越了 Aider 等手工设计的智能体。
DGM 的主要局限性在于它主要面向编码任务。它假定在特定任务(如编写 Python)中的表现与修改自身所需的技能相同。由于其核心改进机制在一定程度上保持不变,它在将自我改进推广到非编码领域时遇到了困难。
超智能体(Hyperagents):元认知自我修改
为了解决 DGM 的局限性,Meta 的研究人员开发了超智能体(DGM-H)。自我改进的智能体通常有两个主要组件:执行手头特定问题的“任务智能体”,以及分析和修改智能体的“元智能体”。
超智能体将这两个组件合并为一个可编辑的程序。除了重写任务逻辑外,超智能体还重写其评估和改进自身的逻辑。
DGM-H 建立在原始 DGM 之上。它保留了 DGM 的开放结构,以保持一组成功的超智能体池。系统从池中选出候选者,允许它们自我修改,在给定任务上评估新变体,并将成功的变体作为未来迭代的垫脚石添加回池中。
这种元认知方法允许复杂行为的涌现,而无需人类提示。例如,在训练期间,DGM-H 独立进化出了自身的持久记忆系统、跨代的性能跟踪以及多阶段评估管道。它基本上从零开始构建了自己的高级约束机制。
关注我们即将推出的约束机制工程(Harness Engineering)研讨会,仅剩 60 个席位,每个席位 150 美元。
由于改进机制本身可以进化,DGM-H 在编码之外的不同领域也能发挥作用。在一项论文评审任务中,一个初始为空的智能体将其准确率从 0.0 提高到 0.710。在机器人技术领域,它优化了四足机器人的奖励函数,分数从 0.060 提高到 0.372,最终击败了人工设计的基准线 0.348。
特别提及:Karpathy 的 Autoresearch
虽然超智能体代表了深刻的架构转变,但 AI 研究员 Andrej Karpathy 通过其 autoresearch 项目展示了这一概念的实际力量。这个开源工具提供了一个开发人员可以立即运行的自我改进示例。它使用简单的循环在无人监督的情况下优化机器学习模型。
Autoresearch 有一个 program.md 文件,人工工程师在其中以纯 Markdown 格式提供高层指令。
Autoresearch 读取指令并对 train.py 进行更改,该文件包含 GPT 模型的训练代码。它运行一个 5 分钟的训练作业,检查结果,然后重复该循环。
Autoresearch 使用 Git 作为研究记忆。如果指标得到改善,它会提交更改;如果没有,它会执行“git reset”回到最后已知的良好状态。
实验表明,智能体可以进行有趣的优化,例如发现增加迭代速度在某些情况下比增加批处理大小更有益。
除了训练模型外,Autoresearch 可用于任何可以使用指标衡量的编码类型。例如,Shopify 团队修改了 Autoresearch 以优化其 CI 流水线。
局限性与现实检验
向自我改进代码的转变并非没有风险。最显著的障碍是奖励黑客行为(reward hacking)。因为这些智能体针对单一指标进行激进优化,它们经常在评分函数中找到漏洞。实际上,它们可能会通过捷径达到指定指标,而未能实现潜在目标。
智能体也可能陷入“局部最优”并避免做出重大改变。来自 Autoresearch 社区的观察表明,智能体经常陷入无休止地调整安全的超参数变化中,而不是尝试真正创新所需的大胆架构飞跃。
计算资源方面也存在风险。如果没有严格的监督,如果智能体进入没有退出条件的无限改进循环,它可能会在一夜之间耗尽巨大的 GPU 预算。
最后,请留意安全漏洞。当狭窄地关注其指标时,自我改进的智能体可能会编写不安全的代码或规避旨在保护敏感数据的保障措施。
总而言之,虽然我们对自我改进的智能体感到兴奋,但我们仍然需要有经验的工程师来指导这个过程,确保这些有益的助手避免造成损害。
关注 @AlphaSignalAI 获取更多内容。在 AlphaSignal.ai 订阅每日 AI 信号。被 300,000+ 开发者阅读。
另外,关注我们即将推出的约束机制工程(Harness Engineering)研讨会,仅剩 60 个席位,每个席位 150 美元。
相似文章
@dair_ai: 关于自我改进智能体的优秀论文:
本周一篇重要的AI论文探讨了自我改进智能体是否真正发现新知识,还是仅仅在重新混合现有信息。
@dair_ai: https://x.com/dair_ai/status/2063644231030214958
每周精选AI论文综述,涵盖MIT的自我修正发现系统、智能体自我进化解析,以及谷歌使用智能体框架进行形式数学的LEAP系统。
@dair_ai: https://x.com/dair_ai/status/2053495521243799717
DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。
@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。
来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。
@Khazix0918: https://x.com/Khazix0918/status/2062731170337763796
Anthropic发布深度文章《When AI builds itself》,展示AI系统正在加速自身开发,包括代码生成、基准测试饱和以及内部数据表明工程师生产力提升8倍。文章探讨递归自我改进的趋势与潜在影响。