Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练
摘要
提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。
arXiv:2605.14747v1 Announce Type: new
摘要:多模态大语言模型的最新进展推动了对图形用户界面(GUI)智能体的兴趣日益增长,但其泛化能力仍受限于缺乏覆盖多样真实世界应用的大规模训练数据。现有数据集严重依赖昂贵的人工标注,且通常局限于狭窄领域。为解决这一挑战,我们提出了Video2GUI,一个完全自动化的框架,直接从无标签互联网视频中提取有依据的GUI交互轨迹。Video2GUI采用由粗到精的过滤策略来识别高质量的GUI教程视频,并将其转化为结构化的智能体轨迹。将该流水线应用于5亿条视频元数据条目,我们构建了WildGUI,一个包含1200万条交互轨迹、覆盖超过1500个应用和网站的大规模数据集。在WildGUI上预训练Qwen2.5-VL和Mimo-VL,在多个GUI定位和动作基准测试中持续提升5-20%,达到或超越了现有最佳性能。我们将发布WildGUI数据集和Video2GUI流水线,以支持未来的GUI智能体研究。
查看缓存全文
缓存时间: 2026/05/15 06:23
# Video2GUI:从大规模交互轨迹合成泛化GUI智能体预训练数据 来源:https://arxiv.org/abs/2605.14747 查看PDF(https://arxiv.org/pdf/2605.14747) > 摘要:多模态大语言模型的最新进展推动了图形用户界面(GUI)智能体的研究热潮,但其泛化能力仍受限于缺乏覆盖真实世界多样化应用的大规模训练数据。现有数据集严重依赖昂贵的人工标注,且通常局限于狭窄领域。为应对这一挑战,我们提出Video2GUI——一个完全自动化的框架,可直接从无标注的互联网视频中提取基于GUI的交互轨迹。Video2GUI采用从粗到精的过滤策略来识别高质量GUI教程视频,并将其转换为结构化的智能体轨迹。将该流程应用于5亿条视频元数据后,我们构建了WildGUI——一个包含1200万条交互轨迹的大规模数据集,覆盖超过1500个应用和网站。在WildGUI上预训练Qwen2.5-VL和Mimo-VL后,多个GUI定位与动作基准测试一致提升5%-20%,匹配或超越了当前最佳性能。我们将发布WildGUI数据集和Video2GUI流程,以支持GUI智能体的未来研究。 ## 提交历史 来自:Weimin Xiong \[查看邮件(https://arxiv.org/show-email/8397ad5b/2605.14747)\] **\[v1\]** 2026年5月14日星期四 12:14:24 UTC(5,927 KB)
相似文章
通过通用关键帧提取桥接VideoQA与视频引导的代理任务
本文介绍了VG-GUIBench,一个用于评估基于MLLM的GUI代理遵循视频教程能力的基准,并提出了TASKER,一种关键帧提取方法,可提升VideoQA和视频引导的代理任务的性能。
GUICrafter:弱监督GUI智能体,利用海量未标注截图
GUICrafter提出了一种弱监督GUI智能体,利用海量未标注截图和两阶段课程学习框架,减少对昂贵人工标注的依赖,仅用UI-TARS系统0.1%的数据即达到了与之竞争的性能。
从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成
引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
Teach-and-Repeat: 从移动屏幕演示中准确提取操作知识以赋能GUI代理
介绍了Teach VLM,一种从移动屏幕演示中提取逐步操作知识的模型,以及Teach-and-Repeat范式,该范式利用这些知识指导GUI代理,在新基准上实现了最先进的性能。