@rohanpaul_ai: Meta 论文显示,当编程代理重复使用过去尝试的简短摘要而不是原始日志时,其性能会显著提升……

X AI KOLs Following 论文

摘要

一篇 Meta 论文显示,编程代理在重复使用过去尝试的简短摘要而非原始日志时性能显著提升,使用 Claude 4.5 Opus 在 SWE-Bench 和 Terminal-Bench 上取得了显著改进。

Meta 论文显示,当编程代理重复使用过去尝试的简短摘要而非原始日志时,其性能显著提升。 即,更强的编程代理不仅需要更多的尝试,还需要更好的记忆方式。 这听起来显而易见,直到你查看代理实际产生的内容:不是答案,而是文件读取、shell 命令、错误、部分修复和被放弃的思路的混乱轨迹。 论文的想法是将每次完整尝试转化为主要猜测、部分进展和失败点的紧凑摘要,然后利用这些摘要来挑选最佳尝试并指导新的尝试。 当模型无法比较自身过去的工作时,测试时扩展就会失效。 对于简短答案,排名很容易。 对于长周期编码,瓶颈从生成转向表示。 一旦输出变成摘要,就会有两大好处。 系统可以对少量候选进行锦标赛式选择,这比强行进行一次大规模比较效果更好,并且它可以将最佳摘要反馈到新一轮尝试中,而不是盲目开始。 --- 作者在两个困难的编程基准上测试了该方法,通过并行运行多次尝试,使用锦标赛式投票方法选择有希望的摘要,然后启动可以从所选摘要开始的新尝试。 结果非常显著,Claude 4.5 Opus 在 SWE-Bench Verified 上的得分从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0 上从 46.9% 提升至 59.1%。 重要的是,论文指出,对于长编码代理,更好的测试时扩展主要不是关于进行更多尝试,而是关于以代理可以实际重复使用的形式存储经验。 ---- 论文链接 – arxiv. org/abs/2604.16529 论文标题:“Scaling Test-Time Compute for Agentic Coding”
查看原文
查看缓存全文

缓存时间: 2026/05/23 16:10

Meta论文显示,当编程智能体复用过往尝试的简短摘要而非原始日志时,其表现会显著提升。

换言之,更强的编程智能体不仅需要更多尝试,更需要更好的尝试记忆方式。

这话听起来很浅显,直到你审视智能体实际产出的东西:它给出的不是答案,而是文件读取、shell命令、错误、部分修复和废弃思路构成的杂乱痕迹。

该论文的核心思路是将每次完整尝试浓缩成一段关键假设、部分进展和失败点的紧凑摘要,随后利用这些摘要来挑选最佳尝试,并指导后续尝试的方向。

当模型无法对比自己先前的工作时,测试时扩展就会失效。

对于简短答案来说,排序轻而易举。

但对于长时间跨度编程任务而言,瓶颈从生成阶段转向了表征阶段。

一旦执行输出被压缩为摘要,两个有益的现象就会出现。

系统可以对少量候选方案开展锦标赛式选择(这比强制进行大规模对比效果更好),并且能将最优摘要反馈给新一轮尝试,从而避免从零开始。


作者在两个难度较高的编程基准上测试了这一方法:并行运行多次尝试,用锦标赛式投票方法筛选有潜力的摘要,然后启动新尝试,让这些新尝试可以优先读取选中的摘要。

结果非常显著:Claude 4.5 Opus在SWE-Bench Verified上从70.9%提升至77.6%,在Terminal-Bench v2.0上从46.9%提升至59.1%。

值得关注的是,论文指出:对于长时间编程智能体,实现更好的测试时扩展,关键不在于增加尝试次数,而在于以智能体真正可复用的形式存储经验。


论文链接 – arxiv. org/abs/2604.16529

论文标题:“Scaling Test-Time Compute for Agentic Coding”

Satya Nadella透露微软内部如何借助AI应用“精益知识工作”的理念。

AI投资的内部回报率,以及如何利用AI的成本降低效应。

借鉴丰田的制造效率原则,并将其应用于由AI赋能的办公室工作。

例如:微软每年在客户支持运营上花费约40亿美元。通过部署AI智能体进行前端拦截(在问题到达人工客服前解决)以及为支持人员提供实时推理辅助,他们在Xbox支持和Azure支持等领域大幅削减了成本。


来源:“Bg2 Pod”YouTube频道(链接见评论)

相似文章