Macaron-A2UI:面向个人智能体的生成式UI模型

Hugging Face Daily Papers 论文

摘要

介绍了Macaron-A2UI,一种用于个人智能体的生成式UI模型,可综合动态界面与轻量级可执行操作,超越纯文本聊天。本文引入大规模语料库、A2UI-Bench基准,并使用LoRA微调和强化学习训练了高达754B参数的模型,取得了显著成果。

随着个人智能体日益演进以处理复杂、用户为中心的任务,静态纯文本聊天迅速成为瓶颈。生成式UI作为一种必要的新接口层应运而生,能够根据交互上下文实时动态合成正确的控件、选项和状态。我们提出Macaron-A2UI,一种面向个人智能体的生成式UI模型。我们的目标是超越纯文本交互,使智能体能够生成自然语言以及轻量级、可执行的UI操作,用于信息收集、偏好细化、确认和多目标组织。我们从异构对话源构建了一个大规模生成式UI语料库,引入A2UI-Bench进行受控评估,并通过参数高效的基于LoRA的监督微调,随后进行奖励驱动的强化学习,训练了30B、235B和754B参数的模型。最佳的Macaron-A2UI模型在没有显式模式提示的情况下,在A2UI-Bench上达到75.6的整体得分,超越了最强的全模式前沿基线。我们发布模型、基准和评估协议,以支持未来在个人智能体生成式UI方面的研究。
查看原文
查看缓存全文

缓存时间: 2026/05/26 02:41

论文页面 - Macaron-A2UI: 面向个人代理的生成式用户界面模型

来源:https://huggingface.co/papers/2605.24830
作者:

,

,

,

,

,

,

,

,

,

摘要

生成式用户界面模型使个人代理能够合成动态界面,并附带轻量级可执行操作,从而在纯文本交互之外提供更丰富的交互体验。

随着个人代理(https://huggingface.co/papers?q=personal%20agents)不断进化以处理复杂、以用户为中心的任务,静态纯文本聊天正迅速成为瓶颈。生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)应运而生,成为必要的新界面层,能够实时根据交互上下文动态合成正确的控件、选项和状态。我们提出了Macaron-A2UI,一个面向个人代理(https://huggingface.co/papers?q=personal%20agents)中生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)的模型。我们的目标是超越纯文本交互,使代理能够生成自然语言以及轻量级、可执行的UI操作,用于信息收集、偏好细化、确认和多目标组织。我们从异构对话源构建了一个大规模生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)语料库,引入了A2UI-Bench(https://huggingface.co/papers?q=A2UI-Bench)进行受控评估,并训练了30B、235B和754B规模的模型,采用参数高效基于LoRA的监督微调(https://huggingface.co/papers?q=parameter-efficient%20LoRA-based%20supervised%20fine-tuning)以及后续的奖励驱动强化学习(https://huggingface.co/papers?q=reward-driven%20reinforcement%20learning)。最佳的Macaron-A2UI模型在A2UI-Bench(https://huggingface.co/papers?q=A2UI-Bench)上无需显式模式提示即可达到75.6的整体得分,超越了最强的全模式前沿基线。我们公开发布了模型、基准和评估协议,以支持未来面向个人代理(https://huggingface.co/papers?q=personal%20agents)的生成式用户界面(https://huggingface.co/papers?q=Generative%20UI)研究工作。

查看 arXiv 页面(https://arxiv.org/abs/2605.24830)查看 PDF(https://arxiv.org/pdf/2605.24830)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.24830)

在你的代理中获取此论文:

hf papers read 2605.24830

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.24830 以在此页面链接它。

引用此论文的数据集 0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.24830 以在此页面链接它。

引用此论文的 Spaces 0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.24830 以在此页面链接它。

包含此论文的收藏 1

相似文章

UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理

Papers with Code Trending

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers

MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。

PresentAgent-2: 迈向通用多模态演示代理

Hugging Face Daily Papers

PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。