SWE-Explore：编码代理仓库探索能力基准测试

Hugging Face Daily Papers 2026/06/05 00:00 论文

摘要

SWE-Explore 引入了一个基准测试，用于评估编码代理的仓库探索能力，要求在行预算内返回相关代码区域的排序列表。实验表明，基于代理的探索优于传统检索，而行级覆盖仍然是关键区分因素。

诸如 SWE-bench 等仓库级编码基准测试推动了编码代理能力的迅速提升。然而，它们通常将编码任务视为整体性的二元预测问题（例如，已解决或未解决），忽略了代理的细粒度能力，如仓库理解、上下文检索、代码定位和缺陷诊断。在本文中，我们引入了 SWE-Explore，这是一个专注于评估仓库探索（编码代理的关键能力）的基准测试。给定一个仓库和一个问题，SWE-Explore 要求探索者在固定行预算内返回相关代码区域的排序列表。SWE-Explore 涵盖了 10 种编程语言和 203 个开源仓库中的 848 个问题。对于每个实例，我们从成功解决同一问题的独立代理轨迹中提取行级真实标签，提炼出他们解决路径实际参考的特定代码区域。我们从覆盖率、排序和上下文效率三个维度评估探索，表明这些指标与下游修复行为高度相关。在一系列检索方法、通用编码代理和专门的定位器中，我们发现基于代理的探索者明显优于经典检索方法。尽管对于现代方法而言，文件级定位已经很强，但行级覆盖和高效排序仍然是区分最先进探索者的关键维度。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:43

论文页面 - SWE-Explore：基准测试编码代理如何探索仓库

来源：https://huggingface.co/papers/2606.07297

摘要

SWE-Explore 引入了一个基准测试，用于评估编码代理的仓库探索能力，要求在线预算内返回相关代码区域的排序列表，结果表明代理式探索优于传统检索方法。

仓库级编码基准测试（如 SWE-bench (https://huggingface.co/papers?q=SWE-bench)）极大地推动了编码代理 (https://huggingface.co/papers?q=coding%20agents) 能力的快速增长。然而，它们通常将编码任务视为一个整体性的二元预测问题（例如，已解决或未解决），忽视了细粒度的代理能力，例如仓库理解 (https://huggingface.co/papers?q=repository%20understanding)、上下文检索 (https://huggingface.co/papers?q=context%20retrieval)、代码定位 (https://huggingface.co/papers?q=code%20localization) 和缺陷诊断 (https://huggingface.co/papers?q=bug%20diagnosis)。在本文中，我们介绍了 SWE-Explore (https://huggingface.co/papers?q=SWE-Explore)，这是一个将仓库探索 (https://huggingface.co/papers?q=repository%20exploration) 的评估独立出来的基准测试——这是编码代理 (https://huggingface.co/papers?q=coding%20agents) 的一项关键能力。给定一个仓库和一个问题，SWE-Explore (https://huggingface.co/papers?q=SWE-Explore) 要求探索器在固定的行预算 (https://huggingface.co/papers?q=line%20budget) 下返回一个相关代码区域的排序列表。SWE-Explore (https://huggingface.co/papers?q=SWE-Explore) 覆盖了 848 个问题，横跨 10 种编程语言和 203 个开源仓库。对于每个实例，我们从成功解决同一问题的独立代理轨迹中推导出行级别的真实标签，提炼出这些代理实际参考的具体代码区域。我们从覆盖率、排序 (https://huggingface.co/papers?q=ranking) 和上下文效率 (https://huggingface.co/papers?q=context-efficiency) 维度评估探索效果，表明这些指标与下游修复行为密切相关。在广泛的检索方法 (https://huggingface.co/papers?q=retrieval%20methods)、通用编码代理 (https://huggingface.co/papers?q=coding%20agents) 和专用定位器中，我们发现代理探索器 (https://huggingface.co/papers?q=agentic%20explorers) 明显优于经典检索方法。虽然文件级定位对于现代方法已经很强，但行级覆盖率 (https://huggingface.co/papers?q=line-level%20coverage) 和高效排序 (https://huggingface.co/papers?q=ranking) 仍然是区分最先进探索器的关键维度。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07297)
查看 PDF (https://arxiv.org/pdf/2606.07297)
项目页面 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)
GitHub5 (https://github.com/Qiushao-E/SWE-Explore-Bench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07297)

在你的代理中获取此论文：

hf papers read 2606.07297

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.07297 即可在此页面链接。

引用此论文的数据集 1

SWE-Explore-Bench/SWE-Explore-Bench 查看器 • 约 17 小时前更新 • 848 • 61 • 6 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.07297 即可在此页面链接。

SWE-Explore：编码代理仓库探索能力基准测试

论文页面 - SWE-Explore：基准测试编码代理如何探索仓库

摘要

引用此论文的模型 0

引用此论文的数据集 1

SWE-Explore-Bench/SWE-Explore-Bench 查看器 • 约 17 小时前更新 • 848 • 61 • 6 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)

引用此论文的 Spaces 0

包含此论文的收藏 1

相似文章

SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

感觉编码代理擅长找代码，但不擅长理解项目

DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库

SaaSBench：探索编码智能体在长周期企业SaaS工程中的边界

SWE-WebDevBench：评估编码智能体应用平台作为虚拟软件代理商的能力

提交意见反馈