运行还是不运行:分析基于LLM的程序修复中代码执行的成本效益

Hugging Face Daily Papers 论文

摘要

本文实证分析了基于LLM的程序修复智能体中代码执行的成本效益,发现执行被大量使用但往往不加区分,限制执行可以在对修复成功影响最小的情况下节省大量成本。

基于LLM的程序修复智能体越来越多地建立在“生成-运行-修正”范式上,通过迭代执行测试来评估和优化补丁。这种基于执行的方法已成为最先进系统的标准实践。然而,执行可能耗时且昂贵,但它们对这些智能体的影响仍未得到充分探索。本文对基于LLM的程序修复中的执行行为进行了两阶段实证研究。为了大规模描述执行行为,我们首先分析了来自SWE-bench排行榜提交的7,745个智能体轨迹。其次,我们评估了200个SWE-bench实例和三个智能体(Claude Code、Codex和开源OpenCode)在四种执行范式下的3,000次端到端修复尝试,从而对性能和成本进行细粒度比较。我们的分析揭示了三个关键发现:(1)代码执行在所有分析的智能体和模型中都被使用,平均每项任务执行8.8次测试运行。不同智能体和模型的执行行为差异很大,频率从每项任务2次到19次不等,并且后期执行的成功率始终高于早期执行。(2)执行限制对修复成功影响甚微:在采用最先进模型的商业智能体上,禁止执行和无限制之间的修复成功率差距仅为1.25个百分点,且不具有统计显著性,而禁止执行则显著节省了令牌和挂钟成本。(3)执行收益集中而非均匀分布。这些模式表明,当前智能体不加区分地应用执行,在其提供收益甚微的实例上付出了成本。因此,执行应被视为一种具有明确成本效益权衡的资源,而非默认能力。
查看原文
查看缓存全文

缓存时间: 2026/06/29 18:04

论文页面 - 运行还是不运行:基于LLM的程序修复中代码执行的成本效益分析

来源:https://huggingface.co/papers/2606.26978

摘要

基于LLM的程序修复代理频繁使用基于执行的测试,但其效率并不一致,许多情况下执行成本远超收益。

基于LLM的代理(https://huggingface.co/papers?q=LLM-based%20agents)用于程序修复(https://huggingface.co/papers?q=program%20repair)日益采用“生成-运行-修正“范式,通过反复执行测试来评估和优化补丁。这种基于执行的方法(https://huggingface.co/papers?q=execution-based%20approach)已成为最先进系统的标准实践。然而,执行可能耗时且昂贵,但其对这些代理的影响尚未得到充分探索。本文通过两阶段实证研究,对基于LLM的程序修复(https://huggingface.co/papers?q=program%20repair)中的执行行为进行了分析。为大规模刻画执行行为,我们首先分析了来自SWE-bench(https://huggingface.co/papers?q=SWE-bench)排行榜提交的7,745条代理轨迹(https://huggingface.co/papers?q=agent%20traces)。其次,我们在200个SWE-bench(https://huggingface.co/papers?q=SWE-bench)实例上,针对三种代理(Claude Code、Codex以及开源项目OpenCode)在四种执行范式(https://huggingface.co/papers?q=execution%20paradigms)下评估了3,000次端到端修复(https://huggingface.co/papers?q=end-to-end%20repair)尝试,从而对性能与成本进行细粒度比较。我们的分析揭示了三个关键发现:(1) 所有被分析的代理和模型都使用了代码执行,平均每个任务执行8.8次测试。不同代理和模型的执行行为差异显著,频率范围从每个任务2次到19次不等,且后期执行的成功率始终高于前期。(2) 执行限制对修复成功率影响甚微:在采用最先进模型的商业代理上,禁止执行与无限制执行之间的修复率(https://huggingface.co/papers?q=resolve-rate)差距仅为1.25个百分点,且不具有统计显著性,而禁止执行可显著节省令牌和实际时间成本(https://huggingface.co/papers?q=wall-clock%20cost)。(3) 执行收益是集中而非均匀分布的。这些模式表明,当前代理不加区分地使用执行,在收益甚微的实例上付出了成本。因此,执行应被视为一种具有明确成本效益权衡的资源,而非默认能力。

查看arXiv页面(https://arxiv.org/abs/2606.26978)查看PDF(https://arxiv.org/pdf/2606.26978)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.26978)

在你的代理中获取此论文:

hf papers read 2606.26978

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。

引用此论文的Spaces0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

@polynoamial: https://x.com/polynoamial/status/2064210146558136827

X AI KOLs Following

本文认为,LLM基准测试性能越来越依赖于测试时的计算量,而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图,并讨论了对安全评估的影响。