MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers 论文

摘要

MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。

人工智能生成内容(AIGC)工具的快速发展使得可以按需创建图像、视频和可视化内容用于网页设计,为现代UI/UX提供了灵活且日益被采用的范式。然而,将这些工具直接集成到自动化网页生成中通常会导致样式不一致和全局连贯性差,因为元素是孤立生成的。我们提出MM-WebAgent,一种用于多模态网页生成的分层智能体框架,通过分层规划和迭代自省来协调基于AIGC的元素生成。MM-WebAgent联合优化全局布局、局部多模态内容及其整合,生成连贯且视觉一致的网页。我们还引入了一个多模态网页生成的基准测试和多级评估协议,用于系统评估。实验表明,MM-WebAgent优于代码生成和基于智能体的基线方法,特别是在多模态元素生成和整合方面。代码与数据:https://aka.ms/mm-webagent。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - MM-WebAgent:用于网页生成的分层多模态智能体

来源:https://huggingface.co/papers/2604.15309

作者:

,

,

,

,

,

,

,

,

,

,

,

,

摘要

MM-WebAgent 是一个分层智能体框架,通过联合优化布局与多模态内容,协调基于 AIGC 的元素生成,实现连贯且视觉一致的网页设计。

人工智能生成内容(AIGC)工具的快速发展,使得图片、视频和可视化内容可以按需生成用于网页设计,为现代 UI/UX 提供了一种灵活且日益被采用的范式。然而,直接将这些工具集成到自动网页生成中,往往会导致风格不一致和全局连贯性差,因为元素是孤立生成的。我们提出了 MM-WebAgent,一个用于多模态网页生成的分层智能体框架,该框架通过分层规划和迭代自我反思来协调基于 AIGC 的元素生成。MM-WebAgent 联合优化全局布局、局部多模态内容及其集成,生成连贯且视觉一致的网页。我们还引入了一个用于多模态网页生成的基准测试,以及一个用于系统评估的多层级评估协议。实验表明,MM-WebAgent 在代码生成和基于智能体的基线方法上表现更优,尤其是在多模态元素生成与集成方面。代码与数据:https://aka.ms/mm-webagent。

查看 arXiv 页面 (https://arxiv.org/abs/2604.15309) 查看 PDF (https://arxiv.org/pdf/2604.15309) 项目页面 (https://aka.ms/mm-webagent) GitHub (https://github.com/microsoft/MM-webagent) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15309)

在你的智能体中获取此论文:

hf papers read 2604\.15309

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.15309 即可从本页面链接。

引用此论文的数据集 1

microsoft/MM-WebGen-Bench 查看器 • 3 天前更新 • 120 • 290 (https://huggingface.co/datasets/microsoft/MM-WebGen-Bench)

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15309 即可从本页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。

相似文章

PresentAgent-2: 迈向通用多模态演示代理

Hugging Face Daily Papers

PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。

MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。