SWE-WebDevBench:评估编码智能体应用平台作为虚拟软件代理商的能力

Hugging Face Daily Papers 论文

摘要

本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。

“氛围编码(vibe coding)”平台的兴起——用户可以用自然语言描述应用,由 AI 智能体自主生成全栈软件——催生了超越代码级基准的严格评估需求。为了评估这些平台作为虚拟软件开发代理商在理解业务需求、做出架构决策、编写生产级代码、处理迭代修改以及维持业务就绪状态方面的能力,我们推出了 SWE-WebDev Bench,这是一个包含 68 项指标的评估框架,涵盖 25 项主要指标和 43 项诊断指标,分布在七个组别中,沿三个维度组织:交互模式(应用创建请求 (ACR) 与应用修改请求 (AMR))、代理商视角(产品经理 (PM)、工程、运维)以及复杂度层级(T4 多角色 SaaS,T5 AI 原生)。 我们的评估(涉及六个平台、三个领域、18 个评估单元)揭示了当前一代 AI 应用构建工具的四个常见缺陷:(1) 规范瓶颈,即平台将丰富的业务需求压缩为过度简化的技术方案;(2) 普遍存在的前后端脱节,即视觉上精美的 UI 掩盖了缺失或损坏的后端基础设施;(3) 陡峭的生产就绪性悬崖,即没有平台在工程质量上的得分超过 60%,且不同平台在生成后所需的人工努力程度差异巨大;(4) 广泛的安全和基础设施故障,没有平台的安全得分超过针对 90% 目标设定的 65%,并发处理能力低至 6%。这些观察结果仅描述我们的样本情况,需要更大规模的重复实验来建立普遍性。我们将 SWE-WebDev Bench 作为社区基准发布,以支持此类重复实验,并帮助平台构建者识别和解决这些差距。 代码和基准资源可在以下网址获取:https://github.com/snowmountainAi/webdevbench 和 https://webdevbench.com/。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:52

论文页面 - SWE-WebDevBench:评估作为虚拟软件代理的编码代理应用平台

来源:https://huggingface.co/papers/2605.04637

摘要

本文提出了一套名为 SWE-WebDev Bench 的综合评估框架,用于从需求理解、架构决策、代码质量和生产就绪度等多个维度评估 AI 驱动的应用开发平台。

“氛围编程(https://huggingface.co/papers?q=vibe%20coding)”平台的兴起,使用户能够用自然语言描述应用,而 AI 代理(https://huggingface.co/papers?q=AI%20agents)自主生成全栈软件,这催生了对超越代码级别基准的严格评估的需求。为了评估它们作为虚拟软件开发代理机构(https://huggingface.co/papers?q=software%20development%20agencies)在理解业务需求(https://huggingface.co/papers?q=business%20requirements)、做出架构决策(https://huggingface.co/papers?q=architectural%20decisions)、编写生产代码(https://huggingface.co/papers?q=production%20code)、处理迭代修改(https://huggingface.co/papers?q=iterative%20modifications)以及维持业务就绪状态(https://huggingface.co/papers?q=business%20readiness)方面的表现,我们引入了 SWE-WebDev Bench(https://huggingface.co/papers?q=SWE-WebDev%20Bench),这是一个包含 68 项指标的评估框架(https://huggingface.co/papers?q=evaluation%20framework),涵盖七个组别的 25 项主要指标和 43 项诊断指标,组织在三个维度之下:交互模式(https://huggingface.co/papers?q=Interaction%20Mode)(应用创建请求(ACR)与应用修改请求(AMR))、代理角度(https://huggingface.co/papers?q=Agency%20Angle)(产品经理(PM)、工程、运维)和复杂度层级(https://huggingface.co/papers?q=Complexity%20Tier)(T4 多角色 SaaS,T5 AI 原生)。我们的评估(六个平台,三个领域,18 个评估单元)揭示了当前一代 AI 应用构建器中的四个反复出现的缺陷:(1)规范瓶颈(https://huggingface.co/papers?q=specification%20bottleneck),平台将丰富的业务需求(https://huggingface.co/papers?q=business%20requirements)压缩为过度简化的技术计划;(2)普遍的前后端解耦(https://huggingface.co/papers?q=frontend-backend%20decoupling),视觉上精美的 UI 掩盖了缺失或损坏的后端基础设施;(3)陡峭的生产就绪度悬崖(https://huggingface.co/papers?q=production-readiness%20cliff),没有平台在工程质量上得分超过 60%,且生成后的人工工作量在不同平台间差异巨大;(4)广泛的安全和基础设施故障,没有平台的安全评分(https://huggingface.co/papers?q=Security%20Score)超过针对 90% 目标的 65%,并发处理能力(https://huggingface.co/papers?q=concurrency%20handling)低至 6%。这些观察结果描述的是我们的样本,需要更大规模的复制以确立普遍性。我们将 SWE-WebDev Bench(https://huggingface.co/papers?q=SWE-WebDev%20Bench)作为社区基准发布,以支持此类复制并帮助平台构建者识别和解决这些差距。代码和基准资源可获取于:https://github.com/snowmountainAi/webdevbench 和 https://webdevbench.com/。

查看 arXiv 页面(https://arxiv.org/abs/2605.04637)查看 PDF(https://arxiv.org/pdf/2605.04637)项目页面(https://webdevbench.com/)GitHub8(https://github.com/snowmountainAi/webdevbench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.04637)

在您的代理中获取这篇论文:

hf papers read 2605.04637

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。

包含此论文的收藏集 1

相似文章

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

有人对新DeepSWE进行了审计,结果不太好看

Reddit r/singularity

DeepSWE是一个新的基准测试,用于评估AI编程代理在来自活跃开源仓库的真实软件工程任务上的表现,包含113个任务,涵盖TypeScript、Go、Python、JavaScript和Rust,提供隔离环境和基于程序的验证器。