性能优化基准是否可靠地衡量编码代理？

Hugging Face Daily Papers 2026/07/01 00:00 论文

摘要

本文审计了针对编码代理的三个性能优化基准（GSO、SWE-Perf、SWE-efficiency），发现运行时不稳定、评分规则和任务覆盖率显著影响可靠性，并且许多任务已经至少有一个公开提交解决了。

仓库级的性能优化基准（如GSO、SWE-Perf和SWE-fficiency）通过将补丁应用于真实仓库，并将运行时与未优化的基线和官方参考补丁进行比较，来评估编码代理。它们的排行榜得分越来越多地被用作编码代理进展的证据，但这些得分可能混淆了运行时不稳定、基准特定的评分规则以及至少一个公开提交已解决的任务数量。我们在这三个基准上审计了这些问题。首先，我们在四种常见的谷歌云机器类型上重放740个代码优化任务的官方参考补丁。大多数基准任务可以重放，但它们的参考补丁在每次跨机器重放中仅满足原始基准有效性规则的任务数量为：GSO 39/102个任务、SWE-Perf 11/140个任务、SWE-fficiency 411/498个任务；SWE-Perf尤其脆弱，因为许多参考补丁产生的运行时变化接近于零。其次，我们展示了公开提交排名强烈依赖于基准评分规则。在GSO和SWE-fficiency共享的八个公开提交中，官方排名在28个成对提交比较中有9个不一致，并且SWE-fficiency的排行榜评分规则将过高的分数权重（58.5%-82.8%）分配给最差的十个任务。第三，观察每个任务的10个公开提交，我们发现至少有一个提交在85.3%（384/450）的可重放有效的GSO和SWE-fficiency任务上匹配或超越了参考补丁，并在99.8%（449/450）的任务上超越了未优化的基础代码。我们的研究通过识别具有更可靠性能信号的任务、量化每项任务的分数贡献以及揭示被聚合排名隐藏的剩余性能差距，补充了排行榜得分。

查看原文

查看缓存全文

缓存时间: 2026/07/02 15:49

论文页面 - 性能优化基准测试能否可靠衡量编码代理？

来源：https://huggingface.co/papers/2607.01211

摘要

仓库级性能优化基准测试（如 GSO、SWE-Perf 和 SWE-efficiency）通过将补丁应用到真实仓库并比较运行时间与未优化基线及官方参考补丁来评估编码代理。其排行榜分数越来越多地被用作编码代理进展的证据，但这些分数可能混淆了运行时的不稳定性、基准测试特有的评分规则，以及有多少任务已被至少一个公开提交解决。我们对这三个基准测试进行了审计。首先，我们在四种常见的 Google Cloud 机器类型上重播了 740 个代码优化任务的官方参考补丁。大多数基准测试任务可以重播，但它们的参考补丁在所有跨机器重播中满足原始基准测试有效性规则的仅有 39/102 个 GSO 任务、11/140 个 SWE-Perf 任务和 411/498 个 SWE-efficiency 任务；SWE-Perf 尤其脆弱，因为许多参考补丁产生的运行时变化接近于零。其次，我们展示了公开提交的排名在很大程度上依赖于基准测试的评分规则。在 GSO 和 SWE-efficiency 共享的八个公开提交中，官方排名在 28 对两两提交比较中有 9 对不一致，而 SWE-efficiency 的排行榜评分规则将最差的十个任务赋予了过高的分数权重（58.5%–82.8%）。第三，查看每个任务的 10 个公开提交，我们发现至少有一个提交在 85.3%（384/450）的可重播有效 GSO 和 SWE-efficiency 任务上匹配或击败了参考补丁，并在 99.8%（449/450）的任务上击败了未优化的基础代码。我们的研究通过识别具有更可靠性能信号的任务、量化每个任务的分数贡献，并揭示被聚合排名掩盖的剩余性能差距，补充了排行榜分数。

查看 arXiv 页面 (https://arxiv.org/abs/2607.01211) 查看 PDF (https://arxiv.org/pdf/2607.01211) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.01211)

在你的代理中获取这篇论文：

hf papers read 2607\.01211

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

没有模型链接到该论文

请在模型 README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。

引用该论文的数据集 0

没有数据集链接到该论文

请在数据集 README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。

引用该论文的 Spaces 0

没有 Space 链接到该论文

请在 Space README.md 中引用 arxiv.org/abs/2607.01211 以从本页链接。

包含该论文的收藏 0

没有包含该论文的收藏

请将该论文添加到收藏 (https://huggingface.co/new-collection) 以从本页链接。

性能优化基准是否可靠地衡量编码代理？

论文页面 - 性能优化基准测试能否可靠衡量编码代理？

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

EvoCode-Bench：在多轮迭代交互中评估编码代理

SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

TensorBench: 在基于编译器的张量框架上对代码代理进行基准测试

追逐公开分数：编码智能体工作流中的用户压力与评估利用

SWE-INTERACT: 将SWE基准重新构想为用户驱动的长期编码会话

提交意见反馈