UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
摘要
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
查看缓存全文
缓存时间: 2026/05/09 00:29
论文页面 - UI-TARS-2 技术报告:利用多轮强化学习推进 GUI 智能体
来源:https://huggingface.co/papers/2509.02544 发布日期:2025年9月2日
#2 今日论文 (https://huggingface.co/papers/date/2025-09-03) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
UI-TARS-2 是一个原生以 GUI 为中心的智能体模型,解决了数据可扩展性、多轮强化学习和环境稳定性方面的挑战,在各种基准测试中相较于其前身取得了显著改进,并超越了强大的基线模型。
为图形用户界面(GUI (https://huggingface.co/papers?q=GUI))开发自主智能体是人工智能领域的重大挑战。虽然原生智能体模型最近的进展通过端到端学习统一了感知、推理、行动和记忆,展现出了良好的前景,但在数据可扩展性、多轮强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)、纯 GUI 操作的局限性以及环境稳定性方面仍存在开放性问题。在本技术报告中,我们呈现了 UI-TARS-2,这是一个原生以 GUI 为中心的智能体模型,通过系统化的训练方法解决这些挑战:用于可扩展数据生成的数据飞轮(https://huggingface.co/papers?q=data%20flywheel)、稳定的多轮 RL(https://huggingface.co/papers?q=multi-turn%20RL)框架、集成文件系统和终端的混合 GUI(https://huggingface.co/papers?q=GUI)环境,以及用于大规模 rollout 的统一沙箱平台。实证评估表明,UI-TARS-2 相比其前身 UI-TARS-1.5 取得了显著提升。在 GUI(https://huggingface.co/papers?q=GUI)基准测试中,它在 Online-Mind2Web (https://huggingface.co/papers?q=Online-Mind2Web) 上达到 88.2 分,在 OSWorld (https://huggingface.co/papers?q=OSWorld) 上达到 47.5 分,在 WindowsAgentArena (https://huggingface.co/papers?q=WindowsAgentArena) 上达到 50.6 分,在 AndroidWorld (https://huggingface.co/papers?q=AndroidWorld) 上达到 73.3 分,超越了 Claude 和 OpenAI 智能体等强大的基线模型。在游戏环境中,它在 15 个游戏的测试套件中获得了 59.8 的平均归一化分数——约为人类水平的 60%——并在 LMGame-Bench (https://huggingface.co/papers?q=LMGame-Bench) 上与前沿闭源模型(如 OpenAI o3)保持竞争力。此外,该模型还能泛化到长程信息检索任务(https://huggingface.co/papers?q=long-horizon%20information-seeking%20tasks)和软件工程基准测试(https://huggingface.co/papers?q=software%20engineering%20benchmarks),展示了其在不同智能体任务中的鲁棒性。对训练动态的详细分析进一步提供了关于实现大规模智能体 RL 稳定性和效率的见解。这些结果凸显了 UI-TARS-2 推进 GUI(https://huggingface.co/papers?q=GUI)智能体发展的潜力,并展现出对真实世界交互场景的强大泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2509.02544)查看 PDF (https://arxiv.org/pdf/2509.02544)项目页面 (https://seed-tars.com/showcase/ui-tars-2/)GitHub10.3k星标 (https://github.com/bytedance/ui-tars)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2509.02544)
在您的智能体中获取此论文:
hf papers read 2509\.02544
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 2
meituan/EvoCUA-32B-20260105 33B• 更新于 3 月 31 日 • 884 • 25 (https://huggingface.co/meituan/EvoCUA-32B-20260105)
meituan/EvoCUA-8B-20260105 9B• 更新于 3 月 31 日 • 2.92k • 14 (https://huggingface.co/meituan/EvoCUA-8B-20260105)
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2509.02544 以便从此页面链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2509.02544 以便从此页面链接。
包含此论文的收藏集 22
浏览包含此论文的 22 个收藏集 (https://huggingface.co/collections?paper=2509.02544)
相似文章
bytedance/UI-TARS-desktop
ByteDance 发布了 TARS,这是一个多模态 AI 智能体技术栈,包含 Agent TARS(基于 CLI/Web UI 的通用 AI 智能体,支持 GUI、浏览器和终端任务)和 UI-TARS Desktop(由 UI-TARS 模型驱动的原生桌面应用,用于本地和远程计算机/浏览器自动化)。该技术栈将多模态 LLM 与 MCP 工具相结合,实现类人任务处理能力。
计算机使用代理
# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型
ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。
@GitTrend0x: 100% 本地桌面AI Agent 杀手级开源神器 https://github.com/bytedance/UI-TARS-desktop… 这就是 UI-TARS-desktop,字节跳动开源的 31k 星爆款多模态桌面自动化代理! …
UI-TARS-desktop is a highly popular open-source tool by ByteDance that enables 100% local multimodal desktop automation, allowing users to control apps and browsers via natural language without cloud data leaks.
UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG
UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。