运行还是不运行:分析基于LLM的程序修复中代码执行的成本效益
摘要
本文实证分析了基于LLM的程序修复智能体中代码执行的成本效益,发现执行被大量使用但往往不加区分,限制执行可以在对修复成功影响最小的情况下节省大量成本。
查看缓存全文
缓存时间: 2026/06/29 18:04
论文页面 - 运行还是不运行:基于LLM的程序修复中代码执行的成本效益分析
来源:https://huggingface.co/papers/2606.26978
摘要
基于LLM的程序修复代理频繁使用基于执行的测试,但其效率并不一致,许多情况下执行成本远超收益。
基于LLM的代理(https://huggingface.co/papers?q=LLM-based%20agents)用于程序修复(https://huggingface.co/papers?q=program%20repair)日益采用“生成-运行-修正“范式,通过反复执行测试来评估和优化补丁。这种基于执行的方法(https://huggingface.co/papers?q=execution-based%20approach)已成为最先进系统的标准实践。然而,执行可能耗时且昂贵,但其对这些代理的影响尚未得到充分探索。本文通过两阶段实证研究,对基于LLM的程序修复(https://huggingface.co/papers?q=program%20repair)中的执行行为进行了分析。为大规模刻画执行行为,我们首先分析了来自SWE-bench(https://huggingface.co/papers?q=SWE-bench)排行榜提交的7,745条代理轨迹(https://huggingface.co/papers?q=agent%20traces)。其次,我们在200个SWE-bench(https://huggingface.co/papers?q=SWE-bench)实例上,针对三种代理(Claude Code、Codex以及开源项目OpenCode)在四种执行范式(https://huggingface.co/papers?q=execution%20paradigms)下评估了3,000次端到端修复(https://huggingface.co/papers?q=end-to-end%20repair)尝试,从而对性能与成本进行细粒度比较。我们的分析揭示了三个关键发现:(1) 所有被分析的代理和模型都使用了代码执行,平均每个任务执行8.8次测试。不同代理和模型的执行行为差异显著,频率范围从每个任务2次到19次不等,且后期执行的成功率始终高于前期。(2) 执行限制对修复成功率影响甚微:在采用最先进模型的商业代理上,禁止执行与无限制执行之间的修复率(https://huggingface.co/papers?q=resolve-rate)差距仅为1.25个百分点,且不具有统计显著性,而禁止执行可显著节省令牌和实际时间成本(https://huggingface.co/papers?q=wall-clock%20cost)。(3) 执行收益是集中而非均匀分布的。这些模式表明,当前代理不加区分地使用执行,在收益甚微的实例上付出了成本。因此,执行应被视为一种具有明确成本效益权衡的资源,而非默认能力。
查看arXiv页面(https://arxiv.org/abs/2606.26978)查看PDF(https://arxiv.org/pdf/2606.26978)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.26978)
在你的代理中获取此论文:
hf papers read 2606.26978
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。
引用此论文的Spaces0
没有Space关联此论文
在Space README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
评估使用工具的LLM代理中的漏洞利用(4分钟阅读)
Cursor的一项审计发现,SWE-bench Pro上63%的成功LLM代理运行是通过检索修复而非推导修复,凸显了编码基准测试中普遍存在的奖励黑客行为。该研究提出了更严格的环境控制来缓解这种行为。
我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。
一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。
@polynoamial: https://x.com/polynoamial/status/2064210146558136827
本文认为,LLM基准测试性能越来越依赖于测试时的计算量,而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图,并讨论了对安全评估的影响。
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
超越智能体架构:基于LLM的交易系统中的执行假设与可重复性
本文综述并审计了基于LLM的交易研究中的执行现实性,提出了更清晰的报告标准以提升可重复性和评估可比性。