@rohanpaul_ai: Meta 论文显示,当编程代理重复使用过去尝试的简短摘要而不是原始日志时,其性能会显著提升……
摘要
一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。
查看缓存全文
缓存时间: 2026/05/23 16:10
Meta论文显示,当编程智能体复用过往尝试的简短摘要而非原始日志时,其表现会显著提升。
换言之,更强的编程智能体不仅需要更多尝试,更需要更好的尝试记忆方式。
这话听起来很浅显,直到你审视智能体实际产出的东西:它给出的不是答案,而是文件读取、shell命令、错误、部分修复和废弃思路构成的杂乱痕迹。
该论文的核心思路是将每次完整尝试浓缩成一段关键假设、部分进展和失败点的紧凑摘要,随后利用这些摘要来挑选最佳尝试,并指导后续尝试的方向。
当模型无法对比自己先前的工作时,测试时扩展就会失效。
对于简短答案来说,排序轻而易举。
但对于长时间跨度编程任务而言,瓶颈从生成阶段转向了表征阶段。
一旦执行输出被压缩为摘要,两个有益的现象就会出现。
系统可以对少量候选方案开展锦标赛式选择(这比强制进行大规模对比效果更好),并且能将最优摘要反馈给新一轮尝试,从而避免从零开始。
作者在两个难度较高的编程基准上测试了这一方法:并行运行多次尝试,用锦标赛式投票方法筛选有潜力的摘要,然后启动新尝试,让这些新尝试可以优先读取选中的摘要。
结果非常显著:Claude 4.5 Opus在SWE-Bench Verified上从70.9%提升至77.6%,在Terminal-Bench v2.0上从46.9%提升至59.1%。
值得关注的是,论文指出:对于长时间编程智能体,实现更好的测试时扩展,关键不在于增加尝试次数,而在于以智能体真正可复用的形式存储经验。
论文链接 – arxiv. org/abs/2604.16529
论文标题:“Scaling Test-Time Compute for Agentic Coding”
Satya Nadella透露微软内部如何借助AI应用“精益知识工作”的理念。
AI投资的内部回报率,以及如何利用AI的成本降低效应。
借鉴丰田的制造效率原则,并将其应用于由AI赋能的办公室工作。
例如:微软每年在客户支持运营上花费约40亿美元。通过部署AI智能体进行前端拦截(在问题到达人工客服前解决)以及为支持人员提供实时推理辅助,他们在Xbox支持和Azure支持等领域大幅削减了成本。
来源:“Bg2 Pod”YouTube频道(链接见评论)
相似文章
@rohanpaul_ai: 精彩新论文来自Meta、CMU及其他实验室。表明编码代理通过制造自己的...来更快地提升。
来自Meta、CMU及其他实验室的一篇新论文提出了Self-play SWE-RL,这是一种方法,编码代理通过在实际代码库中制造和修复错误来训练自己,在SWE-bench基准测试上取得了显著提升,且不依赖人类编写的任务。
@rohanpaul_ai: 这篇来自Meta、斯坦福和伊利诺伊的调研论文认为,当代码成为AI智能体的主要工作层时,它们的效果更好…
这篇来自Meta、斯坦福和伊利诺伊的调研论文认为,当代码被用作AI智能体的主要工作层时,它们表现更好,将代码视为推理、行动和建模的环境。作者引入了‘智能体框架’的概念,包含工具、内存、沙箱和反馈循环。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
EvoCode-Bench:在多轮迭代交互中评估编码代理
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。