WebCompass:面向代码语言模型的多模态网页编程评估
摘要
# 论文页面 - WebCompass:面向代码语言模型的多模态网页编程评估 来源:[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者:, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力,采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model
查看缓存全文
缓存时间: 2026/04/21 07:20
Paper page - WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
来源:https://huggingface.co/papers/2604.18224
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
WebCompass 通过多样的输入模态和任务类型评估网页开发能力,并使用模拟真实世界编码工作流的自动化评估方法。
大语言模型 (https://huggingface.co/papers?q=Large%20language%20models) 正迅速进化为能够进行端到端网页编码的交互式编程智能体,然而现有基准测试仅评估了该能力的狭窄切面,通常是基于文本条件的生成与静态正确性指标,使得视觉保真度 (https://huggingface.co/papers?q=visual%20fidelity)、交互质量以及代码库级推理 (https://huggingface.co/papers?q=codebase-level%20reasoning) 在很大程度上未被衡量。我们提出了 WebCompass,一个多模态基准测试 (https://huggingface.co/papers?q=multimodal%20benchmark),为网页工程能力 (https://huggingface.co/papers?q=web%20engineering%20capability) 提供统一的全生命周期评估。鉴于真实世界的网页编码是一个包含生成、编辑与修复的迭代循环,WebCompass 涵盖三种输入模态(文本、图像、视频)和三种任务类型(生成、编辑、修复),产生了七个映射专业工作流的任务类别。通过一个多阶段的人机回环流水线 (https://huggingface.co/papers?q=human-in-the-loop%20pipeline),我们筛选整理了涵盖 15 个生成领域、16 种编辑操作类型和 11 种修复缺陷类型的实例,每个实例均标注了简单/中等/困难级别。在评估方面,我们针对编辑和修复采用了一种基于检查清单的 LLM-as-a-Judge (https://huggingface.co/papers?q=LLM-as-a-Judge) 协议,并针对生成任务提出了一种新颖的 Agent-as-a-Judge (https://huggingface.co/papers?q=Agent-as-a-Judge) 范式——该范式能够在真实浏览器中自主执行生成的网站,通过 Model Context Protocol (https://huggingface.co/papers?q=Model%20Context%20Protocol)(MCP)探索交互行为 (https://huggingface.co/papers?q=interactive%20behaviors),并迭代合成有针对性的测试用例,从而紧密逼近人类验收测试。我们对代表性的闭源和开源模型进行了评估,观察到:(1)闭源模型仍然显著更强且更为均衡;(2)编辑和修复呈现出不同的难度特征,修复在保持交互性方面表现更好,但在执行层面仍具挑战性;(3)美观性是最持续的瓶颈,对开源模型而言尤为明显;(4)框架选择对结果有实质性影响,Vue 始终具有挑战性,而 React 和 Vanilla/HTML 则根据任务类型表现出更强的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18224) 查看 PDF (https://arxiv.org/pdf/2604.18224) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18224)
在你的智能体中获取这篇论文:
hf papers read 2604.18224
还没有安装最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型引用此论文
在模型的 README.md 中引用 arxiv.org/abs/2604.18224,即可从此页面建立链接。
引用此论文的数据集 1
NJU-LINK/WebCompass Viewer • 更新于约 2 小时前 • 933 • 1.83k • 3 (https://huggingface.co/datasets/NJU-LINK/WebCompass)
引用此论文的 Spaces 0
暂无 Space 引用此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.18224,即可从此页面建立链接。
包含此论文的合集 0
暂无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 中,即可从此页面建立链接。
相似文章
OpenCompass:大语言模型通用评测平台
OpenCompass是一个一站式、可扩展、高并发的大语言模型评测平台,支持多种基准测试和模块化设计,旨在统一和标准化LLM评估。
MM-WebAgent: 一种用于网页生成的分层多模态Web智能体
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。
LongWebBench:评估长时域设置下的结构性和功能性网页生成
LongWebBench是一个基准测试,用于从结构和功能两个角度评估长时域网页生成,采用基于VLM的指标和DOM增强的基于代理的流程。实验表明,当前的VLM在长程连贯性和可执行交互方面存在困难。
WebWatcher:开辟视觉语言深度研究代理新前沿
WebWatcher 是一个用于深度研究的多模态代理,它利用合成轨迹和强化学习在复杂的视觉与文本信息检索任务中实现了卓越性能。本文还引入了 BrowseComp-VL,这是一个评估多模态代理的新基准。
CombEval: 评估大语言模型中组合计数能力的框架
CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。