SWE-Explore:编码代理仓库探索能力基准测试
摘要
SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在行预算内返回相关代码区域的排序列表。实验表明,基于代理的探索优于传统检索,而行级覆盖仍然是关键区分因素。
查看缓存全文
缓存时间: 2026/06/09 08:43
论文页面 - SWE-Explore:基准测试编码代理如何探索仓库
来源:https://huggingface.co/papers/2606.07297
摘要
SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在线预算内返回相关代码区域的排序列表,结果表明代理式探索优于传统检索方法。
仓库级编码基准测试(如 SWE-bench (https://huggingface.co/papers?q=SWE-bench))极大地推动了编码代理 (https://huggingface.co/papers?q=coding%20agents) 能力的快速增长。然而,它们通常将编码任务视为一个整体性的二元预测问题(例如,已解决或未解决),忽视了细粒度的代理能力,例如仓库理解 (https://huggingface.co/papers?q=repository%20understanding)、上下文检索 (https://huggingface.co/papers?q=context%20retrieval)、代码定位 (https://huggingface.co/papers?q=code%20localization) 和缺陷诊断 (https://huggingface.co/papers?q=bug%20diagnosis)。在本文中,我们介绍了 SWE-Explore (https://huggingface.co/papers?q=SWE-Explore),这是一个将仓库探索 (https://huggingface.co/papers?q=repository%20exploration) 的评估独立出来的基准测试——这是编码代理 (https://huggingface.co/papers?q=coding%20agents) 的一项关键能力。给定一个仓库和一个问题,SWE-Explore (https://huggingface.co/papers?q=SWE-Explore) 要求探索器在固定的行预算 (https://huggingface.co/papers?q=line%20budget) 下返回一个相关代码区域的排序列表。SWE-Explore (https://huggingface.co/papers?q=SWE-Explore) 覆盖了 848 个问题,横跨 10 种编程语言和 203 个开源仓库。对于每个实例,我们从成功解决同一问题的独立代理轨迹中推导出行级别的真实标签,提炼出这些代理实际参考的具体代码区域。我们从覆盖率、排序 (https://huggingface.co/papers?q=ranking) 和上下文效率 (https://huggingface.co/papers?q=context-efficiency) 维度评估探索效果,表明这些指标与下游修复行为密切相关。在广泛的检索方法 (https://huggingface.co/papers?q=retrieval%20methods)、通用编码代理 (https://huggingface.co/papers?q=coding%20agents) 和专用定位器中,我们发现代理探索器 (https://huggingface.co/papers?q=agentic%20explorers) 明显优于经典检索方法。虽然文件级定位对于现代方法已经很强,但行级覆盖率 (https://huggingface.co/papers?q=line-level%20coverage) 和高效排序 (https://huggingface.co/papers?q=ranking) 仍然是区分最先进探索器的关键维度。
查看 arXiv 页面 (https://arxiv.org/abs/2606.07297)
查看 PDF (https://arxiv.org/pdf/2606.07297)
项目页面 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)
GitHub5 (https://github.com/Qiushao-E/SWE-Explore-Bench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07297)
在你的代理中获取此论文:
hf papers read 2606.07297
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.07297 即可在此页面链接。
引用此论文的数据集 1
SWE-Explore-Bench/SWE-Explore-Bench 查看器 • 约 17 小时前更新 • 848 • 61 • 6 (https://huggingface.co/datasets/SWE-Explore-Bench/SWE-Explore-Bench)
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.07297 即可在此页面链接。
包含此论文的收藏 1
相似文章
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
感觉编码代理擅长找代码,但不擅长理解项目
讨论了一个观察:编码代理虽能有效定位代码,但难以深入理解项目,比如组件关系和项目风格。作者介绍了 RepoWise,一个提供仓库级信号(如依赖图和Git历史)的工具来解决这些问题。
DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库
DeNovoSWE是一个大规模数据集,用于训练代码智能体从文档生成完整软件仓库,采用沙盒代理工作流和难度感知过滤。在此数据集上微调Qwen3-30B-A3B将BeyondSWE-Doc2Repo基准的性能从5.8%提升至47.2%。
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。
SWE-WebDevBench:评估编码智能体应用平台作为虚拟软件代理商的能力
本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。