SWE-WebDevBench:评估编码智能体应用平台作为虚拟软件代理商的能力
摘要
本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。
查看缓存全文
缓存时间: 2026/05/08 07:52
论文页面 - SWE-WebDevBench:评估作为虚拟软件代理的编码代理应用平台
来源:https://huggingface.co/papers/2605.04637
摘要
本文提出了一套名为 SWE-WebDev Bench 的综合评估框架,用于从需求理解、架构决策、代码质量和生产就绪度等多个维度评估 AI 驱动的应用开发平台。
“氛围编程(https://huggingface.co/papers?q=vibe%20coding)”平台的兴起,使用户能够用自然语言描述应用,而 AI 代理(https://huggingface.co/papers?q=AI%20agents)自主生成全栈软件,这催生了对超越代码级别基准的严格评估的需求。为了评估它们作为虚拟软件开发代理机构(https://huggingface.co/papers?q=software%20development%20agencies)在理解业务需求(https://huggingface.co/papers?q=business%20requirements)、做出架构决策(https://huggingface.co/papers?q=architectural%20decisions)、编写生产代码(https://huggingface.co/papers?q=production%20code)、处理迭代修改(https://huggingface.co/papers?q=iterative%20modifications)以及维持业务就绪状态(https://huggingface.co/papers?q=business%20readiness)方面的表现,我们引入了 SWE-WebDev Bench(https://huggingface.co/papers?q=SWE-WebDev%20Bench),这是一个包含 68 项指标的评估框架(https://huggingface.co/papers?q=evaluation%20framework),涵盖七个组别的 25 项主要指标和 43 项诊断指标,组织在三个维度之下:交互模式(https://huggingface.co/papers?q=Interaction%20Mode)(应用创建请求(ACR)与应用修改请求(AMR))、代理角度(https://huggingface.co/papers?q=Agency%20Angle)(产品经理(PM)、工程、运维)和复杂度层级(https://huggingface.co/papers?q=Complexity%20Tier)(T4 多角色 SaaS,T5 AI 原生)。我们的评估(六个平台,三个领域,18 个评估单元)揭示了当前一代 AI 应用构建器中的四个反复出现的缺陷:(1)规范瓶颈(https://huggingface.co/papers?q=specification%20bottleneck),平台将丰富的业务需求(https://huggingface.co/papers?q=business%20requirements)压缩为过度简化的技术计划;(2)普遍的前后端解耦(https://huggingface.co/papers?q=frontend-backend%20decoupling),视觉上精美的 UI 掩盖了缺失或损坏的后端基础设施;(3)陡峭的生产就绪度悬崖(https://huggingface.co/papers?q=production-readiness%20cliff),没有平台在工程质量上得分超过 60%,且生成后的人工工作量在不同平台间差异巨大;(4)广泛的安全和基础设施故障,没有平台的安全评分(https://huggingface.co/papers?q=Security%20Score)超过针对 90% 目标的 65%,并发处理能力(https://huggingface.co/papers?q=concurrency%20handling)低至 6%。这些观察结果描述的是我们的样本,需要更大规模的复制以确立普遍性。我们将 SWE-WebDev Bench(https://huggingface.co/papers?q=SWE-WebDev%20Bench)作为社区基准发布,以支持此类复制并帮助平台构建者识别和解决这些差距。代码和基准资源可获取于:https://github.com/snowmountainAi/webdevbench 和 https://webdevbench.com/。
查看 arXiv 页面(https://arxiv.org/abs/2605.04637)查看 PDF(https://arxiv.org/pdf/2605.04637)项目页面(https://webdevbench.com/)GitHub8(https://github.com/snowmountainAi/webdevbench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.04637)
在您的代理中获取这篇论文:
hf papers read 2605.04637
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。
包含此论文的收藏集 1
相似文章
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。
SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。
有人对新DeepSWE进行了审计,结果不太好看
DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。