Macaron-A2UI:面向个人智能体的生成式UI模型
摘要
介绍了Macaron-A2UI,一种用于个人智能体的生成式UI模型,可综合动态界面与轻量级可执行操作,超越纯文本聊天。本文引入大规模语料库、A2UI-Bench基准,并使用LoRA微调和强化学习训练了高达754B参数的模型,取得了显著成果。
查看缓存全文
缓存时间: 2026/05/26 02:41
论文页面 - Macaron-A2UI: 面向个人代理的生成式用户界面模型
来源:https://huggingface.co/papers/2605.24830
作者:
,
,
,
,
,
,
,
,
,
摘要
生成式用户界面模型使个人代理能够合成动态界面,并附带轻量级可执行操作,从而在纯文本交互之外提供更丰富的交互体验。
随着个人代理(https://huggingface.co/papers?q=personal%20agents)不断进化以处理复杂、以用户为中心的任务,静态纯文本聊天正迅速成为瓶颈。生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)应运而生,成为必要的新界面层,能够实时根据交互上下文动态合成正确的控件、选项和状态。我们提出了Macaron-A2UI,一个面向个人代理(https://huggingface.co/papers?q=personal%20agents)中生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)的模型。我们的目标是超越纯文本交互,使代理能够生成自然语言以及轻量级、可执行的UI操作,用于信息收集、偏好细化、确认和多目标组织。我们从异构对话源构建了一个大规模生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)语料库,引入了A2UI-Bench(https://huggingface.co/papers?q=A2UI-Bench)进行受控评估,并训练了30B、235B和754B规模的模型,采用参数高效基于LoRA的监督微调(https://huggingface.co/papers?q=parameter-efficient%20LoRA-based%20supervised%20fine-tuning)以及后续的奖励驱动强化学习(https://huggingface.co/papers?q=reward-driven%20reinforcement%20learning)。最佳的Macaron-A2UI模型在A2UI-Bench(https://huggingface.co/papers?q=A2UI-Bench)上无需显式模式提示即可达到75.6的整体得分,超越了最强的全模式前沿基线。我们公开发布了模型、基准和评估协议,以支持未来面向个人代理(https://huggingface.co/papers?q=personal%20agents)的生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)研究工作。
查看 arXiv 页面(https://arxiv.org/abs/2605.24830)查看 PDF(https://arxiv.org/pdf/2605.24830)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.24830)
在你的代理中获取此论文:
hf papers read 2605.24830
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.24830 以在此页面链接它。
引用此论文的数据集 0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.24830 以在此页面链接它。
引用此论文的 Spaces 0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.24830 以在此页面链接它。
包含此论文的收藏 1
相似文章
@AdinaYakup: Macaron-V1-Preview-749B 一种来自 MindLab 的 Mixture-of-LoRA 个人代理模型,基于 744B 基础模型和 5 个专业 LoRA,生成式 UI…
MindLab 发布了 Macaron-V1-Preview-749B,这是一种基于 744B 基础模型和 5 个专业 LoRA 的 Mixture-of-LoRA 个人代理模型,以生成式 UI 为核心技能,支持 202K 上下文,采用 MIT 许可证。
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
@Saboo_Shubham_: https://x.com/Saboo_Shubham_/status/2062220865643982875
本文解释了生成式 UI 的三种模式(受控式、声明式、开放式)以及 CopilotKit 如何通过 AG-UI 协议实现这些模式,用于构建动态的代理驱动界面。
MM-WebAgent: 一种用于网页生成的分层多模态Web智能体
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。
PresentAgent-2: 迈向通用多模态演示代理
PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。