SWE-WebDevBench：评估编码智能体应用平台作为虚拟软件代理商的能力

Hugging Face Daily Papers 2026/05/06 00:00 论文

摘要

本文介绍了 SWE-WebDevBench，这是一个包含 68 项指标的综合框架，用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。

“氛围编码（vibe coding）”平台的兴起——用户可以用自然语言描述应用，由 AI 智能体自主生成全栈软件——催生了超越代码级基准的严格评估需求。为了评估这些平台作为虚拟软件开发代理商在理解业务需求、做出架构决策、编写生产级代码、处理迭代修改以及维持业务就绪状态方面的能力，我们推出了 SWE-WebDev Bench，这是一个包含 68 项指标的评估框架，涵盖 25 项主要指标和 43 项诊断指标，分布在七个组别中，沿三个维度组织：交互模式（应用创建请求 (ACR) 与应用修改请求 (AMR)）、代理商视角（产品经理 (PM)、工程、运维）以及复杂度层级（T4 多角色 SaaS，T5 AI 原生）。我们的评估（涉及六个平台、三个领域、18 个评估单元）揭示了当前一代 AI 应用构建工具的四个常见缺陷：(1) 规范瓶颈，即平台将丰富的业务需求压缩为过度简化的技术方案；(2) 普遍存在的前后端脱节，即视觉上精美的 UI 掩盖了缺失或损坏的后端基础设施；(3) 陡峭的生产就绪性悬崖，即没有平台在工程质量上的得分超过 60%，且不同平台在生成后所需的人工努力程度差异巨大；(4) 广泛的安全和基础设施故障，没有平台的安全得分超过针对 90% 目标设定的 65%，并发处理能力低至 6%。这些观察结果仅描述我们的样本情况，需要更大规模的重复实验来建立普遍性。我们将 SWE-WebDev Bench 作为社区基准发布，以支持此类重复实验，并帮助平台构建者识别和解决这些差距。代码和基准资源可在以下网址获取：https://github.com/snowmountainAi/webdevbench 和 https://webdevbench.com/。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:52

论文页面 - SWE-WebDevBench：评估作为虚拟软件代理的编码代理应用平台

来源：https://huggingface.co/papers/2605.04637

摘要

本文提出了一套名为 SWE-WebDev Bench 的综合评估框架，用于从需求理解、架构决策、代码质量和生产就绪度等多个维度评估 AI 驱动的应用开发平台。

“氛围编程（https://huggingface.co/papers?q=vibe%20coding）”平台的兴起，使用户能够用自然语言描述应用，而 AI 代理（https://huggingface.co/papers?q=AI%20agents）自主生成全栈软件，这催生了对超越代码级别基准的严格评估的需求。为了评估它们作为虚拟软件开发代理机构（https://huggingface.co/papers?q=software%20development%20agencies）在理解业务需求（https://huggingface.co/papers?q=business%20requirements）、做出架构决策（https://huggingface.co/papers?q=architectural%20decisions）、编写生产代码（https://huggingface.co/papers?q=production%20code）、处理迭代修改（https://huggingface.co/papers?q=iterative%20modifications）以及维持业务就绪状态（https://huggingface.co/papers?q=business%20readiness）方面的表现，我们引入了 SWE-WebDev Bench（https://huggingface.co/papers?q=SWE-WebDev%20Bench），这是一个包含 68 项指标的评估框架（https://huggingface.co/papers?q=evaluation%20framework），涵盖七个组别的 25 项主要指标和 43 项诊断指标，组织在三个维度之下：交互模式（https://huggingface.co/papers?q=Interaction%20Mode）（应用创建请求（ACR）与应用修改请求（AMR））、代理角度（https://huggingface.co/papers?q=Agency%20Angle）（产品经理（PM）、工程、运维）和复杂度层级（https://huggingface.co/papers?q=Complexity%20Tier）（T4 多角色 SaaS，T5 AI 原生）。我们的评估（六个平台，三个领域，18 个评估单元）揭示了当前一代 AI 应用构建器中的四个反复出现的缺陷：（1）规范瓶颈（https://huggingface.co/papers?q=specification%20bottleneck），平台将丰富的业务需求（https://huggingface.co/papers?q=business%20requirements）压缩为过度简化的技术计划；（2）普遍的前后端解耦（https://huggingface.co/papers?q=frontend-backend%20decoupling），视觉上精美的 UI 掩盖了缺失或损坏的后端基础设施；（3）陡峭的生产就绪度悬崖（https://huggingface.co/papers?q=production-readiness%20cliff），没有平台在工程质量上得分超过 60%，且生成后的人工工作量在不同平台间差异巨大；（4）广泛的安全和基础设施故障，没有平台的安全评分（https://huggingface.co/papers?q=Security%20Score）超过针对 90% 目标的 65%，并发处理能力（https://huggingface.co/papers?q=concurrency%20handling）低至 6%。这些观察结果描述的是我们的样本，需要更大规模的复制以确立普遍性。我们将 SWE-WebDev Bench（https://huggingface.co/papers?q=SWE-WebDev%20Bench）作为社区基准发布，以支持此类复制并帮助平台构建者识别和解决这些差距。代码和基准资源可获取于：https://github.com/snowmountainAi/webdevbench 和 https://webdevbench.com/。

查看 arXiv 页面（https://arxiv.org/abs/2605.04637）查看 PDF（https://arxiv.org/pdf/2605.04637）项目页面（https://webdevbench.com/）GitHub8（https://github.com/snowmountainAi/webdevbench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.04637）

在您的代理中获取这篇论文：

hf papers read 2605.04637

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.04637 以从此页面链接它。

SWE-WebDevBench：评估编码智能体应用平台作为虚拟软件代理商的能力

论文页面 - SWE-WebDevBench：评估作为虚拟软件代理的编码代理应用平台

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 1

相似文章

SaaSBench：探索编码智能体在长周期企业SaaS工程中的边界

SaaS-Bench：计算机使用代理能否利用真实世界的SaaS解决专业工作流程？

自动化智能体评估的实证研究

WeaveBench：混合界面计算机使用代理的长时域真实世界基准测试

有人对新DeepSWE进行了审计，结果不太好看

提交意见反馈