DeNovoSWE: 扩展长时域环境以从零生成完整代码仓库

Hugging Face Daily Papers 论文

摘要

DeNovoSWE是一个大规模数据集,用于训练代码智能体从文档生成完整软件仓库,采用沙盒代理工作流和难度感知过滤。在此数据集上微调Qwen3-30B-A3B将BeyondSWE-Doc2Repo基准的性能从5.8%提升至47.2%。

随着基于LLM的代码智能体能力的持续提升,其预期角色正从现有代码库中的局部故障修复扩展到根据高级规范设计并实现完整的软件仓库。然而,由于缺乏大规模、可验证的全仓库生成数据,训练智能体执行此类长时域软件工程任务仍然困难。在本文中,我们介绍DeNovoSWE,一个用于全仓库生成的大规模数据集。DeNovoSWE包含4,818个高质量实例,每个实例需要从文档生成一个完整的仓库。我们的数据集通过精心设计的沙盒代理工作流自动构建,无需人工标注即可实现可扩展的整理。DeNovoSWE基于“分而治之”和“批评-修复”的理念构建。为了平衡数据质量和多样性,我们进一步引入了难度感知的轨迹过滤策略。在DeNovoSWE上微调Qwen3-30B-A3B显著提升了长时域SWE性能,将其在具有挑战性的BeyondSWE-Doc2Repo基准上的得分从5.8%提升至47.2%。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:41

论文页面 - DeNovoSWE:扩展长周期环境以从头生成整个代码库

来源:https://huggingface.co/papers/2606.10728

摘要

本文介绍了一个名为 DeNovoSWE 的大规模数据集,用于训练代码代理从文档中生成完整软件代码库,从而显著提升在长周期软件工程任务上的性能。

随着基于LLM的代码代理(https://huggingface.co/papers?q=LLM-based%20code%20agents)能力的不断提升,人们对其期望已从现有代码库中的局部缺陷修复,扩展到基于高层规范来设计并实现完整的软件代码库。然而,由于缺少大规模、可验证的完整代码库生成(https://huggingface.co/papers?q=whole-repository%20generation)数据,训练此类长周期软件工程代理仍然困难。在本文中,我们提出了 DeNovoSWE,一个用于完整代码库生成(https://huggingface.co/papers?q=whole-repository%20generation)的大规模数据集(https://huggingface.co/papers?q=large-scale%20dataset)。DeNovoSWE 包含 4,818 个高质量实例,每个实例要求根据文档生成完整的代码库。我们的数据集通过精心设计的沙盒代理工作流(https://huggingface.co/papers?q=sandboxed%20agentic%20workflow)自动构建,无需人工标注即可实现可扩展的策划。DeNovoSWE 的构建遵循“分而治之(https://huggingface.co/papers?q=divide%20and%20conquer)”与“批评‑修复哲学(https://huggingface.co/papers?q=critic-repair%20philosophy)”。为兼顾数据质量与多样性,我们进一步引入了一种难度感知轨迹过滤(https://huggingface.co/papers?q=difficulty-aware%20trajectory%20filtering)策略。在 DeNovoSWE 上微调(https://huggingface.co/papers?q=Fine-tuning)Qwen3‑30B‑A3B(https://huggingface.co/papers?q=Qwen3-30B-A3B)可大幅提升长周期软件工程性能,使其在具有挑战性的 BeyondSWE‑Doc2Repo 基准(https://huggingface.co/papers?q=BeyondSWE-Doc2Repo%20benchmark)上的得分从 5.8% 提升至 47.2%。

查看 arXiv 页面(https://arxiv.org/abs/2606.10728)查看 PDF(https://arxiv.org/pdf/2606.10728)GitHub27(https://github.com/AweAI-Team/DeNovoSWE)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10728)

在你的代理中获取此论文:

hf papers read 2606.10728

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10728 以从本页链接。

引用此论文的数据集3

AweAI‑Team/DeNovoSWE 预览• 更新于1天前 • 51 • 2(https://huggingface.co/datasets/AweAI-Team/DeNovoSWE)

AweAI‑Team/DeNovoSWE‑Trajectory‑Filtered 预览• 更新于1天前 • 19 • 4(https://huggingface.co/datasets/AweAI-Team/DeNovoSWE-Trajectory-Filtered)

AweAI‑Team/DeNovoSWE‑Trajectory‑Raw 预览• 更新于1天前 • 14 • 2(https://huggingface.co/datasets/AweAI-Team/DeNovoSWE-Trajectory-Raw)

引用此论文的 Space0

没有 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2606.10728 以从本页链接。

包含此论文的集合2

相似文章

SWE-Explore:编码代理仓库探索能力基准测试

Hugging Face Daily Papers

SWE-Explore 引入了一个基准测试,用于评估编码代理的仓库探索能力,要求在行预算内返回相关代码区域的排序列表。实验表明,基于代理的探索优于传统检索,而行级覆盖仍然是关键区分因素。

有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。