MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers 2026/04/16 00:00 论文

multimodal-generation web-design aigc hierarchical-planning agentic-framework layout-optimization ui-ux

摘要

MM-WebAgent是一种分层智能体框架，通过联合优化布局和多模态内容来协调基于AIGC的元素生成，从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议，展示了该框架相比代码生成和基于智能体的基线方法的改进。

人工智能生成内容（AIGC）工具的快速发展使得可以按需创建图像、视频和可视化内容用于网页设计，为现代UI/UX提供了灵活且日益被采用的范式。然而，将这些工具直接集成到自动化网页生成中通常会导致样式不一致和全局连贯性差，因为元素是孤立生成的。我们提出MM-WebAgent，一种用于多模态网页生成的分层智能体框架，通过分层规划和迭代自省来协调基于AIGC的元素生成。MM-WebAgent联合优化全局布局、局部多模态内容及其整合，生成连贯且视觉一致的网页。我们还引入了一个多模态网页生成的基准测试和多级评估协议，用于系统评估。实验表明，MM-WebAgent优于代码生成和基于智能体的基线方法，特别是在多模态元素生成和整合方面。代码与数据：https://aka.ms/mm-webagent。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - MM-WebAgent：用于网页生成的分层多模态智能体

来源：https://huggingface.co/papers/2604.15309

作者：

摘要

MM-WebAgent 是一个分层智能体框架，通过联合优化布局与多模态内容，协调基于 AIGC 的元素生成，实现连贯且视觉一致的网页设计。

人工智能生成内容（AIGC）工具的快速发展，使得图片、视频和可视化内容可以按需生成用于网页设计，为现代 UI/UX 提供了一种灵活且日益被采用的范式。然而，直接将这些工具集成到自动网页生成中，往往会导致风格不一致和全局连贯性差，因为元素是孤立生成的。我们提出了 MM-WebAgent，一个用于多模态网页生成的分层智能体框架，该框架通过分层规划和迭代自我反思来协调基于 AIGC 的元素生成。MM-WebAgent 联合优化全局布局、局部多模态内容及其集成，生成连贯且视觉一致的网页。我们还引入了一个用于多模态网页生成的基准测试，以及一个用于系统评估的多层级评估协议。实验表明，MM-WebAgent 在代码生成和基于智能体的基线方法上表现更优，尤其是在多模态元素生成与集成方面。代码与数据：https://aka.ms/mm-webagent。

查看 arXiv 页面 (https://arxiv.org/abs/2604.15309) 查看 PDF (https://arxiv.org/pdf/2604.15309) 项目页面 (https://aka.ms/mm-webagent) GitHub (https://github.com/microsoft/MM-webagent) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15309)

在你的智能体中获取此论文：

hf papers read 2604\.15309

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.15309 即可从本页面链接。

引用此论文的数据集 1

microsoft/MM-WebGen-Bench 查看器 • 3 天前更新 • 120 • 290 (https://huggingface.co/datasets/microsoft/MM-WebGen-Bench)

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15309 即可从本页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

论文页面 - MM-WebAgent：用于网页生成的分层多模态智能体

摘要

引用此论文的模型 0

引用此论文的数据集 1

microsoft/MM-WebGen-Bench 查看器 • 3 天前更新 • 120 • 290 (https://huggingface.co/datasets/microsoft/MM-WebGen-Bench)

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

PresentAgent-2: 迈向通用多模态演示代理

Mango：通过全局视图优化的多智能体网页导航

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

从多模态经验中学会学习

MMoA：一种具有递归机制的AI智能体框架，用于记忆型混合智能体

提交意见反馈