SWE-Explore:编码代理仓库探索能力基准测试

Hugging Face Daily Papers 论文

摘要

SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在行预算内返回相关代码区域的排序列表。实验表明,基于代理的探索优于传统检索,而行级覆盖仍然是关键区分因素。

诸如 SWE-bench 等仓库级编码基准测试推动了编码代理能力的迅速提升。然而,它们通常将编码任务视为整体性的二元预测问题(例如,已解决或未解决),忽略了代理的细粒度能力,如仓库理解、上下文检索、代码定位和缺陷诊断。在本文中,我们引入了 SWE-Explore,这是一个专注于评估仓库探索(编码代理的关键能力)的基准测试。给定一个仓库和一个问题,SWE-Explore 要求探索者在固定行预算内返回相关代码区域的排序列表。SWE-Explore 涵盖了 10 种编程语言和 203 个开源仓库中的 848 个问题。对于每个实例,我们从成功解决同一问题的独立代理轨迹中提取行级真实标签,提炼出他们解决路径实际参考的特定代码区域。我们从覆盖率、排序和上下文效率三个维度评估探索,表明这些指标与下游修复行为高度相关。在一系列检索方法、通用编码代理和专门的定位器中,我们发现基于代理的探索者明显优于经典检索方法。尽管对于现代方法而言,文件级定位已经很强,但行级覆盖和高效排序仍然是区分最先进探索者的关键维度。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:43

论文页面 - SWE-Explore:基准测试编码代理如何探索仓库

来源:https://huggingface.co/papers/2606.07297

摘要

SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在线预算内返回相关代码区域的排序列表,结果表明代理式探索优于传统检索方法。

仓库级编码基准测试(如 SWE-bench (https://huggingface.co/papers?q=SWE-bench))极大地推动了编码代理 (https://huggingface.co/papers?q=coding%20agents) 能力的快速增长。然而,它们通常将编码任务视为一个整体性的二元预测问题(例如,已解决或未解决),忽视了细粒度的代理能力,例如仓库理解 (https://huggingface.co/papers?q=repository%20understanding)、上下文检索 (https://huggingface.co/papers?q=context%20retrieval)、代码定位 (https://huggingface.co/papers?q=code%20localization) 和缺陷诊断 (https://huggingface.co/papers?q=bug%20diagnosis)。在本文中,我们介绍了 SWE-Explore (https://huggingface.co/papers?q=SWE-Explore),这是一个将仓库探索 (https://huggingface.co/papers?q=repository%20exploration) 的评估独立出来的基准测试——这是编码代理 (https://huggingface.co/papers?q=coding%20agents) 的一项关键能力。给定一个仓库和一个问题,SWE-Explore (https://huggingface.co/papers?q=SWE-Explore) 要求探索器在固定的行预算 (https://huggingface.co/papers?q=line%20budget) 下返回一个相关代码区域的排序列表。SWE-Explore (https://huggingface.co/papers?q=SWE-Explore) 覆盖了 848 个问题,横跨 10 种编程语言和 203 个开源仓库。对于每个实例,我们从成功解决同一问题的独立代理轨迹中推导出行级别的真实标签,提炼出这些代理实际参考的具体代码区域。我们从覆盖率、排序 (https://huggingface.co/papers?q=ranking) 和上下文效率 (https://huggingface.co/papers?q=context-efficiency) 维度评估探索效果,表明这些指标与下游修复行为密切相关。在广泛的检索方法 (https://huggingface.co/papers?q=retrieval%20methods)、通用编码代理 (https://huggingface.co/papers?q=coding%20agents) 和专用定位器中,我们发现代理探索器 (https://huggingface.co/papers?q=agentic%20explorers) 明显优于经典检索方法。虽然文件级定位对于现代方法已经很强,但行级覆盖率 (https://huggingface.co/papers?q=line-level%20coverage) 和高效排序 (https://huggingface.co/papers?q=ranking) 仍然是区分最先进探索器的关键维度。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07297)
查看 PDF (https://arxiv.org/pdf/2606.07297)
项目页面 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)
GitHub5 (https://github.com/Qiushao-E/SWE-Explore-Bench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07297)

在你的代理中获取此论文:

hf papers read 2606.07297

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.07297 即可在此页面链接。

引用此论文的数据集 1

SWE-Explore-Bench/SWE-Explore-Bench 查看器 • 约 17 小时前更新 • 848 • 61 • 6 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.07297 即可在此页面链接。

包含此论文的收藏 1

相似文章

感觉编码代理擅长找代码,但不擅长理解项目

Reddit r/AI_Agents

讨论了一个观察:编码代理虽能有效定位代码,但难以深入理解项目,比如组件关系和项目风格。作者介绍了 RepoWise,一个提供仓库级信号(如依赖图和Git历史)的工具来解决这些问题。

DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库

Hugging Face Daily Papers

DeNovoSWE是一个大规模数据集,用于训练代码智能体从文档生成完整软件仓库,采用沙盒代理工作流和难度感知过滤。在此数据集上微调Qwen3-30B-A3B将BeyondSWE-Doc2Repo基准的性能从5.8%提升至47.2%。