性能优化基准是否可靠地衡量编码代理?

Hugging Face Daily Papers 论文

摘要

本文审计了针对编码代理的三个性能优化基准(GSO、SWE-Perf、SWE-efficiency),发现运行时不稳定、评分规则和任务覆盖率显著影响可靠性,并且许多任务已经至少有一个公开提交解决了。

仓库级的性能优化基准(如GSO、SWE-Perf和SWE-fficiency)通过将补丁应用于真实仓库,并将运行时与未优化的基线和官方参考补丁进行比较,来评估编码代理。它们的排行榜得分越来越多地被用作编码代理进展的证据,但这些得分可能混淆了运行时不稳定、基准特定的评分规则以及至少一个公开提交已解决的任务数量。我们在这三个基准上审计了这些问题。首先,我们在四种常见的谷歌云机器类型上重放740个代码优化任务的官方参考补丁。大多数基准任务可以重放,但它们的参考补丁在每次跨机器重放中仅满足原始基准有效性规则的任务数量为:GSO 39/102个任务、SWE-Perf 11/140个任务、SWE-fficiency 411/498个任务;SWE-Perf尤其脆弱,因为许多参考补丁产生的运行时变化接近于零。其次,我们展示了公开提交排名强烈依赖于基准评分规则。在GSO和SWE-fficiency共享的八个公开提交中,官方排名在28个成对提交比较中有9个不一致,并且SWE-fficiency的排行榜评分规则将过高的分数权重(58.5%-82.8%)分配给最差的十个任务。第三,观察每个任务的10个公开提交,我们发现至少有一个提交在85.3%(384/450)的可重放有效的GSO和SWE-fficiency任务上匹配或超越了参考补丁,并在99.8%(449/450)的任务上超越了未优化的基础代码。我们的研究通过识别具有更可靠性能信号的任务、量化每项任务的分数贡献以及揭示被聚合排名隐藏的剩余性能差距,补充了排行榜得分。
查看原文
查看缓存全文

缓存时间: 2026/07/02 15:49

论文页面 - 性能优化基准测试能否可靠衡量编码代理?

来源:https://huggingface.co/papers/2607.01211

摘要

仓库级性能优化基准测试(如 GSO、SWE-Perf 和 SWE-efficiency)通过将补丁应用到真实仓库并比较运行时间与未优化基线及官方参考补丁来评估编码代理。其排行榜分数越来越多地被用作编码代理进展的证据,但这些分数可能混淆了运行时的不稳定性、基准测试特有的评分规则,以及有多少任务已被至少一个公开提交解决。我们对这三个基准测试进行了审计。首先,我们在四种常见的 Google Cloud 机器类型上重播了 740 个代码优化任务的官方参考补丁。大多数基准测试任务可以重播,但它们的参考补丁在所有跨机器重播中满足原始基准测试有效性规则的仅有 39/102 个 GSO 任务、11/140 个 SWE-Perf 任务和 411/498 个 SWE-efficiency 任务;SWE-Perf 尤其脆弱,因为许多参考补丁产生的运行时变化接近于零。其次,我们展示了公开提交的排名在很大程度上依赖于基准测试的评分规则。在 GSO 和 SWE-efficiency 共享的八个公开提交中,官方排名在 28 对两两提交比较中有 9 对不一致,而 SWE-efficiency 的排行榜评分规则将最差的十个任务赋予了过高的分数权重(58.5%–82.8%)。第三,查看每个任务的 10 个公开提交,我们发现至少有一个提交在 85.3%(384/450)的可重播有效 GSO 和 SWE-efficiency 任务上匹配或击败了参考补丁,并在 99.8%(449/450)的任务上击败了未优化的基础代码。我们的研究通过识别具有更可靠性能信号的任务、量化每个任务的分数贡献,并揭示被聚合排名掩盖的剩余性能差距,补充了排行榜分数。

查看 arXiv 页面 (https://arxiv.org/abs/2607.01211) 查看 PDF (https://arxiv.org/pdf/2607.01211) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.01211)

在你的代理中获取这篇论文:

hf papers read 2607\.01211

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

没有模型链接到该论文

请在模型 README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。

引用该论文的数据集 0

没有数据集链接到该论文

请在数据集 README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。

引用该论文的 Spaces 0

没有 Space 链接到该论文

请在 Space README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。

包含该论文的收藏 0

没有包含该论文的收藏

请将该论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

SWE-INTERACT: 将SWE基准重新构想为用户驱动的长期编码会话

Hugging Face Daily Papers

SWE-Interact是一个新的测试平台,用于评估编码智能体在真实的多轮用户驱动软件工程任务中的表现,揭示了强大的单轮基准性能并不能可靠地迁移到交互式、迭代的工作流程中,在这些流程中,智能体必须发现用户意图并适应不断变化的需求。