@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。

X AI KOLs Following 2026/05/26 14:40 论文

self-play coding-agents reinforcement-learning software-engineering meta cmu

摘要

来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL，这是一种方法，编码代理通过在实际代码库中制造和修复错误来训练自己，在SWE-bench基准测试上取得了显著提升，且不依赖人类编写的任务。

来自Meta、CMU及其他实验室的精彩新论文。表明编码代理通过制造自己的软件经验来更快地提升。编码代理可以通过在实际项目中制造和修复错误来训练自己。大多数编码代理仍然从人类遗留物中学习：问题、拉取请求、测试、评论和描述错误的基准测试。这很有用，但它使代理依赖于人类产生清晰、可验证教训的速度。 Self-play SWE-RL将学习单元从标注任务转变为可执行的情境。模型的一个版本探索真实的代码库，削弱测试，注入有意义的错误，并留下定义失败的测试工件，而无需英文问题描述。同一模型的另一个版本必须修复系统，不是通过将单词与补丁匹配，而是通过恢复测试下的行为。关键点在于：测试在此处不仅仅是评分者，它是问题的语言。这一点很重要，因为软件理解存在于散文经常压缩或遗漏的约束、依赖、边界条件和不变性中。报告中的增益，SWE-bench Verified提升+10.4分，SWE-Bench Pro提升+7.8分，虽然还早但不容忽视，因为评估仍然使用了自对弈系统未训练过的自然语言问题。这表明SSR（Self-play SWE-RL）学到了比问题措辞更深层的东西，尽管尚未达到开放式的精通程度。这种局限性很重要：生成的错误可能是人为的，奖励可能带有噪声，沙盒仓库仍然是软件现实的一个狭窄切片。尽管如此，方向是清晰的。编码代理的下一个瓶颈可能不是更多人类编写的任务，而是更多让代理遇到、创造、生存并从失败中学习的方式。 ---- 论文链接 – arxiv.org/abs/2512.18552 论文标题：“Toward Training Superintelligent Software Agents through Self-Play SWE-RL”

查看原文

查看缓存全文

缓存时间: 2026/05/26 18:56

Meta、CMU 等实验室联合发布了一篇精彩的新论文。

研究表明，编码代理通过自行制造软件体验能够更快地提升能力。

编码代理可以通过在真实项目中制造并修复 bug 来训练自己。

目前大多数编码代理仍是从人类遗留物中学习：问题报告、拉取请求、测试、评论以及描述哪里出错的基准测试。

这些方法有用，但会使代理依赖人类产生清晰、可验证教训的速度。

自博弈 SWE-RL 将学习单元从标注任务改为可执行场景。

该模型的一个版本会探索真实代码库，削弱测试，注入一个有意义的 bug，并留下定义该失败的测试工件，而无需英文问题描述。

同一模型的另一个版本则需要修复系统——不是通过将文字与补丁匹配，而是通过恢复测试下的行为。

这里的关键点在于：测试在此不仅是评分器，它本身就是问题的语言。

这很重要，因为软件理解存在于约束、依赖、边界情况和不变量之中，而文字描述往往会压缩或遗漏这些内容。

报告的性能提升——在 SWE-bench Verified 上提升 10.4 分，在 SWE-Bench Pro 上提升 7.8 分——虽然属于早期成果，但难以忽视，因为评估时使用的仍是自然语言问题，而自博弈系统并未在这些问题上训练过。

这表明 SSR（自博弈 SWE-RL）学习到了比问题措辞更深层的东西，尽管尚未达到开放式的精通程度。

这种克制是有意义的：生成的 bug 可能不够真实，奖励信号可能有噪声，而沙盒仓库也只代表了软件现实的一小部分。

尽管如此，方向是明确的。

编码代理的下一个瓶颈可能不再是更多人类编写的任务，而是更多让代理遭遇、创造、承受并从中学习失败的方式。

论文链接 – arxiv.org/abs/2512.18552

论文标题: “Toward Training Superintelligent Software Agents through Self-Play SWE-RL”

@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。

相似文章

@rohanpaul_ai: Meta 论文显示，当编程代理重复使用过去尝试的简短摘要而不是原始日志时，其性能会显著提升……

@rohanpaul_ai: 这篇来自Meta、斯坦福和伊利诺伊的调研论文认为，当代码成为AI智能体的主要工作层时，它们的效果更好…

@rohanpaul_ai: 这篇论文展示了一种人工智能通过重写其设置并更新其模型来更好地自我改进。问题是，大部分…

@rohanpaul_ai: 关于自我进化智能体的优秀论文。企业智能体无法真正改进，直到其混乱的日常工作成为安全的学…

@leanxbt: 这篇论文完全改变了我对一个智能体如何修复自身代码的看法：生成代码 -> 执行 -> 解释...

提交意见反馈