@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。

X AI KOLs Following 论文

摘要

来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。

来自Meta、CMU及其他实验室的精彩新论文。 表明编码代理通过制造自己的软件经验来更快地提升。 编码代理可以通过在实际项目中制造和修复错误来训练自己。 大多数编码代理仍然从人类遗留物中学习:问题、拉取请求、测试、评论和描述错误的基准测试。 这很有用,但它使代理依赖于人类产生清晰、可验证教训的速度。 Self-play SWE-RL将学习单元从标注任务转变为可执行的情境。 模型的一个版本探索真实的代码库,削弱测试,注入有意义的错误,并留下定义失败的测试工件,而无需英文问题描述。 同一模型的另一个版本必须修复系统,不是通过将单词与补丁匹配,而是通过恢复测试下的行为。 关键点在于:测试在此处不仅仅是评分者,它是问题的语言。 这一点很重要,因为软件理解存在于散文经常压缩或遗漏的约束、依赖、边界条件和不变性中。 报告中的增益,SWE-bench Verified提升+10.4分,SWE-Bench Pro提升+7.8分,虽然还早但不容忽视,因为评估仍然使用了自对弈系统未训练过的自然语言问题。 这表明SSR(Self-play SWE-RL)学到了比问题措辞更深层的东西,尽管尚未达到开放式的精通程度。 这种局限性很重要:生成的错误可能是人为的,奖励可能带有噪声,沙盒仓库仍然是软件现实的一个狭窄切片。 尽管如此,方向是清晰的。 编码代理的下一个瓶颈可能不是更多人类编写的任务,而是更多让代理遇到、创造、生存并从失败中学习的方式。 ---- 论文链接 – arxiv.org/abs/2512.18552 论文标题:“Toward Training Superintelligent Software Agents through Self-Play SWE-RL”
查看原文
查看缓存全文

缓存时间: 2026/05/26 18:56

Meta、CMU 等实验室联合发布了一篇精彩的新论文。

研究表明,编码代理通过自行制造软件体验能够更快地提升能力。

编码代理可以通过在真实项目中制造并修复 bug 来训练自己。

目前大多数编码代理仍是从人类遗留物中学习:问题报告、拉取请求、测试、评论以及描述哪里出错的基准测试。

这些方法有用,但会使代理依赖人类产生清晰、可验证教训的速度。

自博弈 SWE-RL 将学习单元从标注任务改为可执行场景。

该模型的一个版本会探索真实代码库,削弱测试,注入一个有意义的 bug,并留下定义该失败的测试工件,而无需英文问题描述。

同一模型的另一个版本则需要修复系统——不是通过将文字与补丁匹配,而是通过恢复测试下的行为。

这里的关键点在于:测试在此不仅是评分器,它本身就是问题的语言。

这很重要,因为软件理解存在于约束、依赖、边界情况和不变量之中,而文字描述往往会压缩或遗漏这些内容。

报告的性能提升——在 SWE-bench Verified 上提升 10.4 分,在 SWE-Bench Pro 上提升 7.8 分——虽然属于早期成果,但难以忽视,因为评估时使用的仍是自然语言问题,而自博弈系统并未在这些问题上训练过。

这表明 SSR(自博弈 SWE-RL)学习到了比问题措辞更深层的东西,尽管尚未达到开放式的精通程度。

这种克制是有意义的:生成的 bug 可能不够真实,奖励信号可能有噪声,而沙盒仓库也只代表了软件现实的一小部分。

尽管如此,方向是明确的。

编码代理的下一个瓶颈可能不再是更多人类编写的任务,而是更多让代理遭遇、创造、承受并从中学习失败的方式。


论文链接 – arxiv.org/abs/2512.18552

论文标题: “Toward Training Superintelligent Software Agents through Self-Play SWE-RL”

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

X AI KOLs Timeline

文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。