WebCompass：面向代码语言模型的多模态网页编程评估

Hugging Face Daily Papers 2026/04/20 00:00 论文

benchmark multimodal web-development code-generation llm-evaluation agent-as-a-judge large-language-models

摘要

# 论文页面 - WebCompass：面向代码语言模型的多模态网页编程评估来源：[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者：, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力，采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model

大语言模型正迅速演变为能够进行端到端网页编程的交互式编码智能体，然而现有基准测试仅评估了该能力的狭窄切面，通常是基于文本条件的生成任务，并采用静态正确性指标，导致视觉保真度、交互质量和代码库级推理能力在很大程度上未被衡量。我们提出了 WebCompass，这是一个多模态基准测试，为网页工程能力提供统一的全生命周期评估。认识到真实世界的网页编程是一个包含生成、编辑和修复的迭代循环，WebCompass 涵盖三种输入模态（文本、图像、视频）和三种任务类型（生成、编辑、修复），形成了七个契合专业工作流的任务类别。通过多阶段、人在回路的流程，我们筛选整理了覆盖 15 个生成领域、16 种编辑操作类型和 11 种修复缺陷类型的实例，每个实例均标注了简单/中等/困难等级。在评估方面，我们对编辑和修复任务采用基于检查清单的 LLM-as-a-Judge 协议，并对生成任务提出了一种新颖的 Agent-as-a-Judge 范式——该范式可在真实浏览器中自主执行生成的网站，通过 Model Context Protocol（MCP）探索交互行为，并迭代合成有针对性的测试用例，从而高度逼近人工验收测试。我们评估了具有代表性的闭源和开源模型，观察到：（1）闭源模型仍然明显更强且更均衡；（2）编辑和修复呈现出不同的难度特征，修复任务在保持交互性方面表现更好，但在执行层面仍具挑战性；（3）美观度是最持久的瓶颈，对开源模型尤其如此；以及（4）框架选择对结果有实质性影响，Vue 始终具有挑战性，而 React 和 Vanilla/HTML 则根据任务类型表现更强。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

Paper page - WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

来源：https://huggingface.co/papers/2604.18224

作者：

摘要

WebCompass 通过多样的输入模态和任务类型评估网页开发能力，并使用模拟真实世界编码工作流的自动化评估方法。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models) 正迅速进化为能够进行端到端网页编码的交互式编程智能体，然而现有基准测试仅评估了该能力的狭窄切面，通常是基于文本条件的生成与静态正确性指标，使得视觉保真度 (https://huggingface.co/papers?q=visual%20fidelity)、交互质量以及代码库级推理 (https://huggingface.co/papers?q=codebase-level%20reasoning) 在很大程度上未被衡量。我们提出了 WebCompass，一个多模态基准测试 (https://huggingface.co/papers?q=multimodal%20benchmark)，为网页工程能力 (https://huggingface.co/papers?q=web%20engineering%20capability) 提供统一的全生命周期评估。鉴于真实世界的网页编码是一个包含生成、编辑与修复的迭代循环，WebCompass 涵盖三种输入模态（文本、图像、视频）和三种任务类型（生成、编辑、修复），产生了七个映射专业工作流的任务类别。通过一个多阶段的人机回环流水线 (https://huggingface.co/papers?q=human-in-the-loop%20pipeline)，我们筛选整理了涵盖 15 个生成领域、16 种编辑操作类型和 11 种修复缺陷类型的实例，每个实例均标注了简单/中等/困难级别。在评估方面，我们针对编辑和修复采用了一种基于检查清单的 LLM-as-a-Judge (https://huggingface.co/papers?q=LLM-as-a-Judge) 协议，并针对生成任务提出了一种新颖的 Agent-as-a-Judge (https://huggingface.co/papers?q=Agent-as-a-Judge) 范式——该范式能够在真实浏览器中自主执行生成的网站，通过 Model Context Protocol (https://huggingface.co/papers?q=Model%20Context%20Protocol)（MCP）探索交互行为 (https://huggingface.co/papers?q=interactive%20behaviors)，并迭代合成有针对性的测试用例，从而紧密逼近人类验收测试。我们对代表性的闭源和开源模型进行了评估，观察到：（1）闭源模型仍然显著更强且更为均衡；（2）编辑和修复呈现出不同的难度特征，修复在保持交互性方面表现更好，但在执行层面仍具挑战性；（3）美观性是最持续的瓶颈，对开源模型而言尤为明显；（4）框架选择对结果有实质性影响，Vue 始终具有挑战性，而 React 和 Vanilla/HTML 则根据任务类型表现出更强的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18224) 查看 PDF (https://arxiv.org/pdf/2604.18224) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18224)

在你的智能体中获取这篇论文：

hf papers read 2604.18224

还没有安装最新版 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18224，即可从此页面建立链接。

引用此论文的数据集 1

NJU-LINK/WebCompass Viewer • 更新于约 2 小时前 • 933 • 1.83k • 3 (https://huggingface.co/datasets/NJU-LINK/WebCompass)

引用此论文的 Spaces 0

暂无 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18224，即可从此页面建立链接。

包含此论文的合集 0

暂无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 中，即可从此页面建立链接。

WebCompass：面向代码语言模型的多模态网页编程评估

Paper page - WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

摘要

引用此论文的模型 0

引用此论文的数据集 1

NJU-LINK/WebCompass Viewer • 更新于约 2 小时前 • 933 • 1.83k • 3 (https://huggingface.co/datasets/NJU-LINK/WebCompass)

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

OpenCompass：大语言模型通用评测平台

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

LongWebBench：评估长时域设置下的结构性和功能性网页生成

WebWatcher：开辟视觉语言深度研究代理新前沿

CombEval: 评估大语言模型中组合计数能力的框架

提交意见反馈