DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库
摘要
DeNovoSWE是一个大规模数据集,用于训练代码智能体从文档生成完整软件仓库,采用沙盒代理工作流和难度感知过滤。在此数据集上微调Qwen3-30B-A3B将BeyondSWE-Doc2Repo基准的性能从5.8%提升至47.2%。
查看缓存全文
缓存时间: 2026/06/11 13:41
论文页面 - DeNovoSWE:扩展长周期环境以从头生成整个代码库
来源:https://huggingface.co/papers/2606.10728
摘要
本文介绍了一个名为 DeNovoSWE 的大规模数据集,用于训练代码代理从文档中生成完整软件代码库,从而显著提升在长周期软件工程任务上的性能。
随着基于LLM的代码代理(https://huggingface.co/papers?q=LLM-based%20code%20agents)能力的不断提升,人们对其期望已从现有代码库中的局部缺陷修复,扩展到基于高层规范来设计并实现完整的软件代码库。然而,由于缺少大规模、可验证的完整代码库生成(https://huggingface.co/papers?q=whole-repository%20generation)数据,训练此类长周期软件工程代理仍然困难。在本文中,我们提出了 DeNovoSWE,一个用于完整代码库生成(https://huggingface.co/papers?q=whole-repository%20generation)的大规模数据集(https://huggingface.co/papers?q=large-scale%20dataset)。DeNovoSWE 包含 4,818 个高质量实例,每个实例要求根据文档生成完整的代码库。我们的数据集通过精心设计的沙盒代理工作流(https://huggingface.co/papers?q=sandboxed%20agentic%20workflow)自动构建,无需人工标注即可实现可扩展的策划。DeNovoSWE 的构建遵循“分而治之(https://huggingface.co/papers?q=divide%20and%20conquer)”与“批评‑修复哲学(https://huggingface.co/papers?q=critic-repair%20philosophy)”。为兼顾数据质量与多样性,我们进一步引入了一种难度感知轨迹过滤(https://huggingface.co/papers?q=difficulty-aware%20trajectory%20filtering)策略。在 DeNovoSWE 上微调(https://huggingface.co/papers?q=Fine-tuning)Qwen3‑30B‑A3B(https://huggingface.co/papers?q=Qwen3-30B-A3B)可大幅提升长周期软件工程性能,使其在具有挑战性的 BeyondSWE‑Doc2Repo 基准(https://huggingface.co/papers?q=BeyondSWE-Doc2Repo%20benchmark)上的得分从 5.8% 提升至 47.2%。
查看 arXiv 页面(https://arxiv.org/abs/2606.10728)查看 PDF(https://arxiv.org/pdf/2606.10728)GitHub27(https://github.com/AweAI-Team/DeNovoSWE)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10728)
在你的代理中获取此论文:
hf papers read 2606.10728
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2606.10728 以从本页链接。
引用此论文的数据集3
AweAI‑Team/DeNovoSWE 预览• 更新于1天前 • 51 • 2(https://huggingface.co/datasets/AweAI-Team/DeNovoSWE)
AweAI‑Team/DeNovoSWE‑Trajectory‑Filtered 预览• 更新于1天前 • 19 • 4(https://huggingface.co/datasets/AweAI-Team/DeNovoSWE-Trajectory-Filtered)
AweAI‑Team/DeNovoSWE‑Trajectory‑Raw 预览• 更新于1天前 • 14 • 2(https://huggingface.co/datasets/AweAI-Team/DeNovoSWE-Trajectory-Raw)
引用此论文的 Space0
没有 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2606.10728 以从本页链接。
包含此论文的集合2
相似文章
SWE-Explore:编码代理仓库探索能力基准测试
SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在行预算内返回相关代码区域的排序列表。实验表明,基于代理的探索优于传统检索,而行级覆盖仍然是关键区分因素。
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。
@xdotli:mini-swe-agent 令人印象深刻。仅100行代码、一个bash工具、每个模型使用相同提示,就在 @datacurve 的 DeepSWE 排行榜上名列前茅……
mini-swe-agent 是一个极简的开源 SWE-agent 实现,仅用 100 行代码和一个 bash 工具就能在 DeepSWE 基准测试中登顶。团队还开源了用于交互式使用的 mini-swe-code 和用于跨基准评估的 mini-swe-acp。
Socratic-SWE:基于轨迹派生的智能体技能实现自进化编码智能体
Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架,该框架利用历史求解轨迹生成针对性修复任务,经过三次迭代后在 SWE-bench Verified 上达到 50.40%。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。