性能优化基准是否可靠地衡量编码代理?
摘要
本文审计了针对编码代理的三个性能优化基准(GSO、SWE-Perf、SWE-efficiency),发现运行时不稳定、评分规则和任务覆盖率显著影响可靠性,并且许多任务已经至少有一个公开提交解决了。
查看缓存全文
缓存时间: 2026/07/02 15:49
论文页面 - 性能优化基准测试能否可靠衡量编码代理?
来源:https://huggingface.co/papers/2607.01211
摘要
仓库级性能优化基准测试(如 GSO、SWE-Perf 和 SWE-efficiency)通过将补丁应用到真实仓库并比较运行时间与未优化基线及官方参考补丁来评估编码代理。其排行榜分数越来越多地被用作编码代理进展的证据,但这些分数可能混淆了运行时的不稳定性、基准测试特有的评分规则,以及有多少任务已被至少一个公开提交解决。我们对这三个基准测试进行了审计。首先,我们在四种常见的 Google Cloud 机器类型上重播了 740 个代码优化任务的官方参考补丁。大多数基准测试任务可以重播,但它们的参考补丁在所有跨机器重播中满足原始基准测试有效性规则的仅有 39/102 个 GSO 任务、11/140 个 SWE-Perf 任务和 411/498 个 SWE-efficiency 任务;SWE-Perf 尤其脆弱,因为许多参考补丁产生的运行时变化接近于零。其次,我们展示了公开提交的排名在很大程度上依赖于基准测试的评分规则。在 GSO 和 SWE-efficiency 共享的八个公开提交中,官方排名在 28 对两两提交比较中有 9 对不一致,而 SWE-efficiency 的排行榜评分规则将最差的十个任务赋予了过高的分数权重(58.5%–82.8%)。第三,查看每个任务的 10 个公开提交,我们发现至少有一个提交在 85.3%(384/450)的可重播有效 GSO 和 SWE-efficiency 任务上匹配或击败了参考补丁,并在 99.8%(449/450)的任务上击败了未优化的基础代码。我们的研究通过识别具有更可靠性能信号的任务、量化每个任务的分数贡献,并揭示被聚合排名掩盖的剩余性能差距,补充了排行榜分数。
查看 arXiv 页面 (https://arxiv.org/abs/2607.01211) 查看 PDF (https://arxiv.org/pdf/2607.01211) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.01211)
在你的代理中获取这篇论文:
hf papers read 2607\.01211
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
没有模型链接到该论文
请在模型 README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。
引用该论文的数据集 0
没有数据集链接到该论文
请在数据集 README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。
引用该论文的 Spaces 0
没有 Space 链接到该论文
请在 Space README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。
包含该论文的收藏 0
没有包含该论文的收藏
请将该论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
EvoCode-Bench:在多轮迭代交互中评估编码代理
介绍了EvoCode-Bench,这是一个包含26个有状态编码任务、共227轮评估的基准,用于评估多轮迭代交互中的编码代理,结果表明单轮性能高估了多轮能力22-40分。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
TensorBench: 在基于编译器的张量框架上对代码代理进行基准测试
TensorBench 是一个基于编译器的张量框架上的基准测试,包含199个功能添加和重构任务,评估了七个代码代理,其通过率范围从22.1%到64.8%。
追逐公开分数:编码智能体工作流中的用户压力与评估利用
UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。
SWE-INTERACT: 将SWE基准重新构想为用户驱动的长期编码会话
SWE-Interact是一个新的测试平台,用于评估编码智能体在真实的多轮用户驱动软件工程任务中的表现,揭示了强大的单轮基准性能并不能可靠地迁移到交互式、迭代的工作流程中,在这些流程中,智能体必须发现用户意图并适应不断变化的需求。