@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。
摘要
来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。
查看缓存全文
缓存时间: 2026/05/26 18:56
Meta、CMU 等实验室联合发布了一篇精彩的新论文。
研究表明,编码代理通过自行制造软件体验能够更快地提升能力。
编码代理可以通过在真实项目中制造并修复 bug 来训练自己。
目前大多数编码代理仍是从人类遗留物中学习:问题报告、拉取请求、测试、评论以及描述哪里出错的基准测试。
这些方法有用,但会使代理依赖人类产生清晰、可验证教训的速度。
自博弈 SWE-RL 将学习单元从标注任务改为可执行场景。
该模型的一个版本会探索真实代码库,削弱测试,注入一个有意义的 bug,并留下定义该失败的测试工件,而无需英文问题描述。
同一模型的另一个版本则需要修复系统——不是通过将文字与补丁匹配,而是通过恢复测试下的行为。
这里的关键点在于:测试在此不仅是评分器,它本身就是问题的语言。
这很重要,因为软件理解存在于约束、依赖、边界情况和不变量之中,而文字描述往往会压缩或遗漏这些内容。
报告的性能提升——在 SWE-bench Verified 上提升 10.4 分,在 SWE-Bench Pro 上提升 7.8 分——虽然属于早期成果,但难以忽视,因为评估时使用的仍是自然语言问题,而自博弈系统并未在这些问题上训练过。
这表明 SSR(自博弈 SWE-RL)学习到了比问题措辞更深层的东西,尽管尚未达到开放式的精通程度。
这种克制是有意义的:生成的 bug 可能不够真实,奖励信号可能有噪声,而沙盒仓库也只代表了软件现实的一小部分。
尽管如此,方向是明确的。
编码代理的下一个瓶颈可能不再是更多人类编写的任务,而是更多让代理遭遇、创造、承受并从中学习失败的方式。
论文链接 – arxiv.org/abs/2512.18552
论文标题: “Toward Training Superintelligent Software Agents through Self-Play SWE-RL”
相似文章
@rohanpaul_ai: Meta 论文显示,当编程代理重复使用过去尝试的简短摘要而不是原始日志时,其性能会显著提升……
一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。
@rohanpaul_ai: 这篇来自Meta、斯坦福和伊利诺伊的调研论文认为,当代码成为AI智能体的主要工作层时,它们的效果更好…
这篇来自Meta、斯坦福和伊利诺伊的调研论文认为,当代码被用作AI智能体的主要工作层时,它们表现更好,将代码视为推理、行动和建模的环境。作者引入了‘智能体框架’的概念,包含工具、内存、沙箱和反馈循环。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766
文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。
@bibryam:这篇 OpenAI 文章对于测试工程师来说简直就是一座金矿。其中的洞见不是“AI 写代码”,而是:→ 如何……
OpenAI 分享了其团队如何利用 Codex 代理构建一个完整的软件产品,完全不编写任何手动代码,重点在于设计环境与反馈循环,以确保代理的可靠运行。