Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练

arXiv cs.CL 论文

摘要

提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。

arXiv:2605.14747v1 Announce Type: new 摘要:多模态大语言模型的最新进展推动了对图形用户界面(GUI)智能体的兴趣日益增长,但其泛化能力仍受限于缺乏覆盖多样真实世界应用的大规模训练数据。现有数据集严重依赖昂贵的人工标注,且通常局限于狭窄领域。为解决这一挑战,我们提出了Video2GUI,一个完全自动化的框架,直接从无标签互联网视频中提取有依据的GUI交互轨迹。Video2GUI采用由粗到精的过滤策略来识别高质量的GUI教程视频,并将其转化为结构化的智能体轨迹。将该流水线应用于5亿条视频元数据条目,我们构建了WildGUI,一个包含1200万条交互轨迹、覆盖超过1500个应用和网站的大规模数据集。在WildGUI上预训练Qwen2.5-VL和Mimo-VL,在多个GUI定位和动作基准测试中持续提升5-20%,达到或超越了现有最佳性能。我们将发布WildGUI数据集和Video2GUI流水线,以支持未来的GUI智能体研究。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:23

# Video2GUI:从大规模交互轨迹合成泛化GUI智能体预训练数据
来源:https://arxiv.org/abs/2605.14747
查看PDF(https://arxiv.org/pdf/2605.14747)

> 摘要:多模态大语言模型的最新进展推动了图形用户界面(GUI)智能体的研究热潮,但其泛化能力仍受限于缺乏覆盖真实世界多样化应用的大规模训练数据。现有数据集严重依赖昂贵的人工标注,且通常局限于狭窄领域。为应对这一挑战,我们提出Video2GUI——一个完全自动化的框架,可直接从无标注的互联网视频中提取基于GUI的交互轨迹。Video2GUI采用从粗到精的过滤策略来识别高质量GUI教程视频,并将其转换为结构化的智能体轨迹。将该流程应用于5亿条视频元数据后,我们构建了WildGUI——一个包含1200万条交互轨迹的大规模数据集,覆盖超过1500个应用和网站。在WildGUI上预训练Qwen2.5-VL和Mimo-VL后,多个GUI定位与动作基准测试一致提升5%-20%,匹配或超越了当前最佳性能。我们将发布WildGUI数据集和Video2GUI流程,以支持GUI智能体的未来研究。

## 提交历史

来自:Weimin Xiong \[查看邮件(https://arxiv.org/show-email/8397ad5b/2605.14747)\] **\[v1\]** 2026年5月14日星期四 12:14:24 UTC(5,927 KB)

相似文章

UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理

Papers with Code Trending

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。