UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理

Papers with Code Trending 论文

摘要

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。

自主图形用户界面代理的开发是人工智能领域面临的主要挑战。虽然原生代理模型通过端到端学习将感知、推理、行动和记忆进行统一,展现出了良好的前景,但数据可扩展性、多轮强化学习、图形用户界面操作限制以及环境稳定性等问题仍然存在。在本技术报告中,我们介绍 UI-TARS-2,这是一款原生以图形用户界面为中心的代理模型,通过系统化的训练方法解决这些挑战:用于可扩展数据生成的数据飞轮、稳定的多轮强化学习框架、集成文件系统和终端的混合图形用户界面环境,以及用于大规模 rollout 的统一沙盒平台。实证评估表明,UI-TARS-2 较其前身 UI-TARS-1.5 取得了显著提升。在图形用户界面基准测试中,它在 Online-Mind2Web 上达到 88.2 分,在 OSWorld 上达到 47.5 分,在 WindowsAgentArena 上达到 50.6 分,在 AndroidWorld 上达到 73.3 分,优于 Claude 和 OpenAI 代理等强基线模型。在游戏环境中,它在 15 款游戏的测试套件中获得了 59.8 的平均归一化分数,约达到人类水平的 60%,并在 LMGame-Bench 上与前沿专有模型(如 OpenAI o3)保持竞争力。此外,该模型能够泛化到长时域信息搜索任务和软件工程基准测试,展示了其在不同代理任务中的鲁棒性。对训练动态的详细分析进一步为实现大规模代理强化学习的稳定性和效率提供了见解。这些结果凸显了 UI-TARS-2 推进图形用户界面代理状态的潜力,并表现出对真实世界交互场景的强泛化能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 00:29

论文页面 - UI-TARS-2 技术报告:利用多轮强化学习推进 GUI 智能体

来源:https://huggingface.co/papers/2509.02544 发布日期:2025年9月2日

#2 今日论文 (https://huggingface.co/papers/date/2025-09-03) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

UI-TARS-2 是一个原生以 GUI 为中心的智能体模型,解决了数据可扩展性、多轮强化学习和环境稳定性方面的挑战,在各种基准测试中相较于其前身取得了显著改进,并超越了强大的基线模型。

为图形用户界面(GUI (https://huggingface.co/papers?q=GUI))开发自主智能体是人工智能领域的重大挑战。虽然原生智能体模型最近的进展通过端到端学习统一了感知、推理、行动和记忆,展现出了良好的前景,但在数据可扩展性、多轮强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)、纯 GUI 操作的局限性以及环境稳定性方面仍存在开放性问题。在本技术报告中,我们呈现了 UI-TARS-2,这是一个原生以 GUI 为中心的智能体模型,通过系统化的训练方法解决这些挑战:用于可扩展数据生成的数据飞轮(https://huggingface.co/papers?q=data%20flywheel)、稳定的多轮 RL(https://huggingface.co/papers?q=multi-turn%20RL)框架、集成文件系统和终端的混合 GUI(https://huggingface.co/papers?q=GUI)环境,以及用于大规模 rollout 的统一沙箱平台。实证评估表明,UI-TARS-2 相比其前身 UI-TARS-1.5 取得了显著提升。在 GUI(https://huggingface.co/papers?q=GUI)基准测试中,它在 Online-Mind2Web (https://huggingface.co/papers?q=Online-Mind2Web) 上达到 88.2 分,在 OSWorld (https://huggingface.co/papers?q=OSWorld) 上达到 47.5 分,在 WindowsAgentArena (https://huggingface.co/papers?q=WindowsAgentArena) 上达到 50.6 分,在 AndroidWorld (https://huggingface.co/papers?q=AndroidWorld) 上达到 73.3 分,超越了 Claude 和 OpenAI 智能体等强大的基线模型。在游戏环境中,它在 15 个游戏的测试套件中获得了 59.8 的平均归一化分数——约为人类水平的 60%——并在 LMGame-Bench (https://huggingface.co/papers?q=LMGame-Bench) 上与前沿闭源模型(如 OpenAI o3)保持竞争力。此外,该模型还能泛化到长程信息检索任务(https://huggingface.co/papers?q=long-horizon%20information-seeking%20tasks)和软件工程基准测试(https://huggingface.co/papers?q=software%20engineering%20benchmarks),展示了其在不同智能体任务中的鲁棒性。对训练动态的详细分析进一步提供了关于实现大规模智能体 RL 稳定性和效率的见解。这些结果凸显了 UI-TARS-2 推进 GUI(https://huggingface.co/papers?q=GUI)智能体发展的潜力,并展现出对真实世界交互场景的强大泛化能力。

查看 arXiv 页面 (https://arxiv.org/abs/2509.02544)查看 PDF (https://arxiv.org/pdf/2509.02544)项目页面 (https://seed-tars.com/showcase/ui-tars-2/)GitHub10.3k星标 (https://github.com/bytedance/ui-tars)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2509.02544)

在您的智能体中获取此论文:

hf papers read 2509\.02544

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 2

meituan/EvoCUA-32B-20260105 33B• 更新于 3 月 31 日 • 884 • 25 (https://huggingface.co/meituan/EvoCUA-32B-20260105)

meituan/EvoCUA-8B-20260105 9B• 更新于 3 月 31 日 • 2.92k • 14 (https://huggingface.co/meituan/EvoCUA-8B-20260105)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2509.02544 以便从此页面链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2509.02544 以便从此页面链接。

包含此论文的收藏集 22

浏览包含此论文的 22 个收藏集 (https://huggingface.co/collections?paper=2509.02544)

相似文章

bytedance/UI-TARS-desktop

GitHub Trending (daily)

ByteDance 发布了 TARS,这是一个多模态 AI 智能体技术栈,包含 Agent TARS(基于 CLI/Web UI 的通用 AI 智能体,支持 GUI、浏览器和终端任务)和 UI-TARS Desktop(由 UI-TARS 模型驱动的原生桌面应用,用于本地和远程计算机/浏览器自动化)。该技术栈将多模态 LLM 与 MCP 工具相结合,实现类人任务处理能力。

计算机使用代理

OpenAI Blog

# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型

UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。