运行还是不运行：分析基于LLM的程序修复中代码执行的成本效益

Hugging Face Daily Papers 2026/06/25 00:00 论文

program-repair llm-agents code-execution cost-effectiveness empirical-study swe-bench agent-traces

摘要

本文实证分析了基于LLM的程序修复智能体中代码执行的成本效益，发现执行被大量使用但往往不加区分，限制执行可以在对修复成功影响最小的情况下节省大量成本。

基于LLM的程序修复智能体越来越多地建立在“生成-运行-修正”范式上，通过迭代执行测试来评估和优化补丁。这种基于执行的方法已成为最先进系统的标准实践。然而，执行可能耗时且昂贵，但它们对这些智能体的影响仍未得到充分探索。本文对基于LLM的程序修复中的执行行为进行了两阶段实证研究。为了大规模描述执行行为，我们首先分析了来自SWE-bench排行榜提交的7,745个智能体轨迹。其次，我们评估了200个SWE-bench实例和三个智能体（Claude Code、Codex和开源OpenCode）在四种执行范式下的3,000次端到端修复尝试，从而对性能和成本进行细粒度比较。我们的分析揭示了三个关键发现：（1）代码执行在所有分析的智能体和模型中都被使用，平均每项任务执行8.8次测试运行。不同智能体和模型的执行行为差异很大，频率从每项任务2次到19次不等，并且后期执行的成功率始终高于早期执行。（2）执行限制对修复成功影响甚微：在采用最先进模型的商业智能体上，禁止执行和无限制之间的修复成功率差距仅为1.25个百分点，且不具有统计显著性，而禁止执行则显著节省了令牌和挂钟成本。（3）执行收益集中而非均匀分布。这些模式表明，当前智能体不加区分地应用执行，在其提供收益甚微的实例上付出了成本。因此，执行应被视为一种具有明确成本效益权衡的资源，而非默认能力。

查看原文

查看缓存全文

缓存时间: 2026/06/29 18:04

论文页面 - 运行还是不运行：基于LLM的程序修复中代码执行的成本效益分析

来源：https://huggingface.co/papers/2606.26978

摘要

基于LLM的程序修复代理频繁使用基于执行的测试，但其效率并不一致，许多情况下执行成本远超收益。

基于LLM的代理（https://huggingface.co/papers?q=LLM-based%20agents）用于程序修复（https://huggingface.co/papers?q=program%20repair）日益采用“生成-运行-修正“范式，通过反复执行测试来评估和优化补丁。这种基于执行的方法（https://huggingface.co/papers?q=execution-based%20approach）已成为最先进系统的标准实践。然而，执行可能耗时且昂贵，但其对这些代理的影响尚未得到充分探索。本文通过两阶段实证研究，对基于LLM的程序修复（https://huggingface.co/papers?q=program%20repair）中的执行行为进行了分析。为大规模刻画执行行为，我们首先分析了来自SWE-bench（https://huggingface.co/papers?q=SWE-bench）排行榜提交的7,745条代理轨迹（https://huggingface.co/papers?q=agent%20traces）。其次，我们在200个SWE-bench（https://huggingface.co/papers?q=SWE-bench）实例上，针对三种代理（Claude Code、Codex以及开源项目OpenCode）在四种执行范式（https://huggingface.co/papers?q=execution%20paradigms）下评估了3,000次端到端修复（https://huggingface.co/papers?q=end-to-end%20repair）尝试，从而对性能与成本进行细粒度比较。我们的分析揭示了三个关键发现：(1) 所有被分析的代理和模型都使用了代码执行，平均每个任务执行8.8次测试。不同代理和模型的执行行为差异显著，频率范围从每个任务2次到19次不等，且后期执行的成功率始终高于前期。(2) 执行限制对修复成功率影响甚微：在采用最先进模型的商业代理上，禁止执行与无限制执行之间的修复率（https://huggingface.co/papers?q=resolve-rate）差距仅为1.25个百分点，且不具有统计显著性，而禁止执行可显著节省令牌和实际时间成本（https://huggingface.co/papers?q=wall-clock%20cost）。(3) 执行收益是集中而非均匀分布的。这些模式表明，当前代理不加区分地使用执行，在收益甚微的实例上付出了成本。因此，执行应被视为一种具有明确成本效益权衡的资源，而非默认能力。

查看arXiv页面（https://arxiv.org/abs/2606.26978）查看PDF（https://arxiv.org/pdf/2606.26978）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.26978）

在你的代理中获取此论文：

hf papers read 2606.26978

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。

引用此论文的Spaces0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2606.26978即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接。

运行还是不运行：分析基于LLM的程序修复中代码执行的成本效益

论文页面 - 运行还是不运行：基于LLM的程序修复中代码执行的成本效益分析

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

评估使用工具的LLM代理中的漏洞利用（4分钟阅读）

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法，但事实并非如此。

@polynoamial: https://x.com/polynoamial/status/2064210146558136827

LLM代理中的忠实不确定性：实践中校准与效用权衡

超越智能体架构：基于LLM的交易系统中的执行假设与可重复性

提交意见反馈