MM-WebAgent: 一种用于网页生成的分层多模态Web智能体
摘要
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - MM-WebAgent:用于网页生成的分层多模态智能体
来源:https://huggingface.co/papers/2604.15309
作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
MM-WebAgent 是一个分层智能体框架,通过联合优化布局与多模态内容,协调基于 AIGC 的元素生成,实现连贯且视觉一致的网页设计。
人工智能生成内容(AIGC)工具的快速发展,使得图片、视频和可视化内容可以按需生成用于网页设计,为现代 UI/UX 提供了一种灵活且日益被采用的范式。然而,直接将这些工具集成到自动网页生成中,往往会导致风格不一致和全局连贯性差,因为元素是孤立生成的。我们提出了 MM-WebAgent,一个用于多模态网页生成的分层智能体框架,该框架通过分层规划和迭代自我反思来协调基于 AIGC 的元素生成。MM-WebAgent 联合优化全局布局、局部多模态内容及其集成,生成连贯且视觉一致的网页。我们还引入了一个用于多模态网页生成的基准测试,以及一个用于系统评估的多层级评估协议。实验表明,MM-WebAgent 在代码生成和基于智能体的基线方法上表现更优,尤其是在多模态元素生成与集成方面。代码与数据:https://aka.ms/mm-webagent。
查看 arXiv 页面 (https://arxiv.org/abs/2604.15309) 查看 PDF (https://arxiv.org/pdf/2604.15309) 项目页面 (https://aka.ms/mm-webagent) GitHub (https://github.com/microsoft/MM-webagent) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15309)
在你的智能体中获取此论文:
hf papers read 2604\.15309
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.15309 即可从本页面链接。
引用此论文的数据集 1
microsoft/MM-WebGen-Bench 查看器 • 3 天前更新 • 120 • 290 (https://huggingface.co/datasets/microsoft/MM-WebGen-Bench)
引用此论文的 Spaces 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.15309 即可从本页面链接。
包含此论文的收藏集 0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页面链接。
相似文章
PresentAgent-2: 迈向通用多模态演示代理
PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。
Mango:通过全局视图优化的多智能体网页导航
普渡大学研究团队推出 Mango,一种多智能体网页导航系统,利用全局站点结构和汤普森采样选择最优起始 URL,在 WebVoyager 和 WebWalkerQA 基准测试中显著提升成功率。
MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成
MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。
从多模态经验中学会学习
本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。
MMoA:一种具有递归机制的AI智能体框架,用于记忆型混合智能体
提出MMoA,一种新颖的AI智能体框架,该框架结合了递归机制,用于实现记忆型混合智能体架构。本文介绍了一种在多智能体系统中改进智能体协作与记忆的方法。