WebCompass:面向代码语言模型的多模态网页编程评估

Hugging Face Daily Papers 论文

摘要

# 论文页面 - WebCompass:面向代码语言模型的多模态网页编程评估 来源:[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者:, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力,采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model

大语言模型正迅速演变为能够进行端到端网页编程的交互式编码智能体,然而现有基准测试仅评估了该能力的狭窄切面,通常是基于文本条件的生成任务,并采用静态正确性指标,导致视觉保真度、交互质量和代码库级推理能力在很大程度上未被衡量。我们提出了 WebCompass,这是一个多模态基准测试,为网页工程能力提供统一的全生命周期评估。认识到真实世界的网页编程是一个包含生成、编辑和修复的迭代循环,WebCompass 涵盖三种输入模态(文本、图像、视频)和三种任务类型(生成、编辑、修复),形成了七个契合专业工作流的任务类别。通过多阶段、人在回路的流程,我们筛选整理了覆盖 15 个生成领域、16 种编辑操作类型和 11 种修复缺陷类型的实例,每个实例均标注了简单/中等/困难等级。在评估方面,我们对编辑和修复任务采用基于检查清单的 LLM-as-a-Judge 协议,并对生成任务提出了一种新颖的 Agent-as-a-Judge 范式——该范式可在真实浏览器中自主执行生成的网站,通过 Model Context Protocol(MCP)探索交互行为,并迭代合成有针对性的测试用例,从而高度逼近人工验收测试。我们评估了具有代表性的闭源和开源模型,观察到:(1)闭源模型仍然明显更强且更均衡;(2)编辑和修复呈现出不同的难度特征,修复任务在保持交互性方面表现更好,但在执行层面仍具挑战性;(3)美观度是最持久的瓶颈,对开源模型尤其如此;以及(4)框架选择对结果有实质性影响,Vue 始终具有挑战性,而 React 和 Vanilla/HTML 则根据任务类型表现更强。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:20

Paper page - WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

来源:https://huggingface.co/papers/2604.18224

作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

WebCompass 通过多样的输入模态和任务类型评估网页开发能力,并使用模拟真实世界编码工作流的自动化评估方法。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models) 正迅速进化为能够进行端到端网页编码的交互式编程智能体,然而现有基准测试仅评估了该能力的狭窄切面,通常是基于文本条件的生成与静态正确性指标,使得视觉保真度 (https://huggingface.co/papers?q=visual%20fidelity)、交互质量以及代码库级推理 (https://huggingface.co/papers?q=codebase-level%20reasoning) 在很大程度上未被衡量。我们提出了 WebCompass,一个多模态基准测试 (https://huggingface.co/papers?q=multimodal%20benchmark),为网页工程能力 (https://huggingface.co/papers?q=web%20engineering%20capability) 提供统一的全生命周期评估。鉴于真实世界的网页编码是一个包含生成、编辑与修复的迭代循环,WebCompass 涵盖三种输入模态(文本、图像、视频)和三种任务类型(生成、编辑、修复),产生了七个映射专业工作流的任务类别。通过一个多阶段的人机回环流水线 (https://huggingface.co/papers?q=human-in-the-loop%20pipeline),我们筛选整理了涵盖 15 个生成领域、16 种编辑操作类型和 11 种修复缺陷类型的实例,每个实例均标注了简单/中等/困难级别。在评估方面,我们针对编辑和修复采用了一种基于检查清单的 LLM-as-a-Judge (https://huggingface.co/papers?q=LLM-as-a-Judge) 协议,并针对生成任务提出了一种新颖的 Agent-as-a-Judge (https://huggingface.co/papers?q=Agent-as-a-Judge) 范式——该范式能够在真实浏览器中自主执行生成的网站,通过 Model Context Protocol (https://huggingface.co/papers?q=Model%20Context%20Protocol)(MCP)探索交互行为 (https://huggingface.co/papers?q=interactive%20behaviors),并迭代合成有针对性的测试用例,从而紧密逼近人类验收测试。我们对代表性的闭源和开源模型进行了评估,观察到:(1)闭源模型仍然显著更强且更为均衡;(2)编辑和修复呈现出不同的难度特征,修复在保持交互性方面表现更好,但在执行层面仍具挑战性;(3)美观性是最持续的瓶颈,对开源模型而言尤为明显;(4)框架选择对结果有实质性影响,Vue 始终具有挑战性,而 React 和 Vanilla/HTML 则根据任务类型表现出更强的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18224) 查看 PDF (https://arxiv.org/pdf/2604.18224) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18224)

在你的智能体中获取这篇论文:

hf papers read 2604.18224

还没有安装最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18224,即可从此页面建立链接。

引用此论文的数据集 1

NJU-LINK/WebCompass Viewer • 更新于约 2 小时前 • 933 • 1.83k • 3 (https://huggingface.co/datasets/NJU-LINK/WebCompass)

引用此论文的 Spaces 0

暂无 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18224,即可从此页面建立链接。

包含此论文的合集 0

暂无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 中,即可从此页面建立链接。

相似文章

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers

MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。

WebWatcher:开辟视觉语言深度研究代理新前沿

Papers with Code Trending

WebWatcher 是一个用于深度研究的多模态代理,它利用合成轨迹和强化学习在复杂的视觉与文本信息检索任务中实现了卓越性能。本文还引入了 BrowseComp-VL,这是一个评估多模态代理的新基准。

CombEval: 评估大语言模型中组合计数能力的框架

arXiv cs.AI

CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。