UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
摘要
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
查看缓存全文
缓存时间: 2026/05/09 00:29
论文页面 - UI-TARS-2 技术报告:利用多轮强化学习推进 GUI 智能体
来源:https://huggingface.co/papers/2509.02544 发布日期:2025年9月2日
#2 今日论文 (https://huggingface.co/papers/date/2025-09-03) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
UI-TARS-2 是一个原生以 GUI 为中心的智能体模型,解决了数据可扩展性、多轮强化学习和环境稳定性方面的挑战,在各种基准测试中相较于其前身取得了显著改进,并超越了强大的基线模型。
为图形用户界面(GUI (https://huggingface.co/papers?q=GUI))开发自主智能体是人工智能领域的重大挑战。虽然原生智能体模型最近的进展通过端到端学习统一了感知、推理、行动和记忆,展现出了良好的前景,但在数据可扩展性、多轮强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)、纯 GUI 操作的局限性以及环境稳定性方面仍存在开放性问题。在本技术报告中,我们呈现了 UI-TARS-2,这是一个原生以 GUI 为中心的智能体模型,通过系统化的训练方法解决这些挑战:用于可扩展数据生成的数据飞轮(https://huggingface.co/papers?q=data%20flywheel)、稳定的多轮 RL(https://huggingface.co/papers?q=multi-turn%20RL)框架、集成文件系统和终端的混合 GUI(https://huggingface.co/papers?q=GUI)环境,以及用于大规模 rollout 的统一沙箱平台。实证评估表明,UI-TARS-2 相比其前身 UI-TARS-1.5 取得了显著提升。在 GUI(https://huggingface.co/papers?q=GUI)基准测试中,它在 Online-Mind2Web (https://huggingface.co/papers?q=Online-Mind2Web) 上达到 88.2 分,在 OSWorld (https://huggingface.co/papers?q=OSWorld) 上达到 47.5 分,在 WindowsAgentArena (https://huggingface.co/papers?q=WindowsAgentArena) 上达到 50.6 分,在 AndroidWorld (https://huggingface.co/papers?q=AndroidWorld) 上达到 73.3 分,超越了 Claude 和 OpenAI 智能体等强大的基线模型。在游戏环境中,它在 15 个游戏的测试套件中获得了 59.8 的平均归一化分数——约为人类水平的 60%——并在 LMGame-Bench (https://huggingface.co/papers?q=LMGame-Bench) 上与前沿闭源模型(如 OpenAI o3)保持竞争力。此外,该模型还能泛化到长程信息检索任务(https://huggingface.co/papers?q=long-horizon%20information-seeking%20tasks)和软件工程基准测试(https://huggingface.co/papers?q=software%20engineering%20benchmarks),展示了其在不同智能体任务中的鲁棒性。对训练动态的详细分析进一步提供了关于实现大规模智能体 RL 稳定性和效率的见解。这些结果凸显了 UI-TARS-2 推进 GUI(https://huggingface.co/papers?q=GUI)智能体发展的潜力,并展现出对真实世界交互场景的强大泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2509.02544)查看 PDF (https://arxiv.org/pdf/2509.02544)项目页面 (https://seed-tars.com/showcase/ui-tars-2/)GitHub10.3k星标 (https://github.com/bytedance/ui-tars)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2509.02544)
在您的智能体中获取此论文:
hf papers read 2509\.02544
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 2
meituan/EvoCUA-32B-20260105 33B• 更新于 3 月 31 日 • 884 • 25 (https://huggingface.co/meituan/EvoCUA-32B-20260105)
meituan/EvoCUA-8B-20260105 9B• 更新于 3 月 31 日 • 2.92k • 14 (https://huggingface.co/meituan/EvoCUA-8B-20260105)
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2509.02544 以便从此页面链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2509.02544 以便从此页面链接。
包含此论文的收藏集 22
浏览包含此论文的 22 个收藏集 (https://huggingface.co/collections?paper=2509.02544)
相似文章
bytedance/UI-TARS-desktop
ByteDance 发布了 TARS,这是一个多模态 AI 智能体技术栈,包含 Agent TARS(基于 CLI/Web UI 的通用 AI 智能体,支持 GUI、浏览器和终端任务)和 UI-TARS Desktop(由 UI-TARS 模型驱动的原生桌面应用,用于本地和远程计算机/浏览器自动化)。该技术栈将多模态 LLM 与 MCP 工具相结合,实现类人任务处理能力。
Macaron-A2UI:面向个人智能体的生成式UI模型
介绍了Macaron-A2UI,一种用于个人智能体的生成式UI模型,可综合动态界面与轻量级可执行操作,超越纯文本聊天。本文引入大规模语料库、A2UI-Bench基准,并使用LoRA微调和强化学习训练了高达754B参数的模型,取得了显著成果。
OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。
@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间,得出的结论是……
一位开发者分享说,解决多轮强化学习中的“tito”问题比普遍认为的要简单,只需要一个实现规则和一个所有模型已经支持的聊天模板属性。
AQuaUI:基于自适应四叉树的GUI代理视觉令牌减少方法
AQuaUI是一种无需训练、推理时即用的GUI代理模型令牌减少方法,利用自适应四叉树降低截图中的空间冗余,实现了高达13.22%的加速和29.52%的视觉令牌减少,同时保留了99.06%的性能。