从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成
摘要
引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。
查看缓存全文
缓存时间: 2026/06/01 07:18
论文页面 - 恢复策略诱发的错误:为鲁棒GUI代理构建基准与轨迹合成
来源:https://huggingface.co/papers/2605.29447
摘要
GUI代理缺乏鲁棒的错误恢复能力,本研究通过GUI-RobustEval和鲁棒性驱动的轨迹合成来解决这一问题,并在真实世界基准上展示了更优的性能。
尽管GUI代理(https://huggingface.co/papers?q=GUI%20agents)取得了快速发展,但它们常常缺乏从自身错误中恢复的鲁棒性,这阻碍了实际部署。为弥补评估层面与数据层面的不足,我们引入了GUI-RobustEval(https://huggingface.co/papers?q=GUI-RobustEval)并提出了鲁棒性驱动的轨迹合成(https://huggingface.co/papers?q=Robustness-driven%20Trajectory%20Synthesis)。GUI-RobustEval(https://huggingface.co/papers?q=GUI-RobustEval)包含1,216个可执行的测试用例,能够系统性地衡量错误恢复(https://huggingface.co/papers?q=error%20recovery)能力,覆盖广泛且真实的错误模式。在数据层面,RoTS是一个可扩展的合成框架,通过基于树的流程主动发现多样化的错误模式并合成相应的恢复步骤,生成了80万个高质量数据。我们在该数据集上微调的RoTS-7B与RoTS-32B两个模型,在GUI-RobustEval(https://huggingface.co/papers?q=GUI-RobustEval)以及传统GUI基准上均取得了显著提升。值得注意的是,RoTS-32B在OSWorld(https://huggingface.co/papers?q=OSWorld)上达到了47.4%的成功率与33.8%的All-Pass@4(https://huggingface.co/papers?q=All-Pass%404)分数,表明提升长程错误恢复(https://huggingface.co/papers?q=error%20recovery)能力有助于同时优化鲁棒性与整体性能。我们的代码已开源:https://github.com/AlibabaResearch/RoTS。
查看arXiv页面(https://arxiv.org/abs/2605.29447)查看PDF(https://arxiv.org/pdf/2605.29447)GitHub4(https://github.com/AlibabaResearch/RoTS)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29447)
在你的代理中获取这篇论文:
hf papers read 2605.29447
还没有最新CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash
引用此论文的模型0
暂无模型关联此论文
请在模型README.md中引用 arxiv.org/abs/2605.29447 以从本页面链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集README.md中引用 arxiv.org/abs/2605.29447 以从本页面链接。
引用此论文的Spaces0
暂无Space关联此论文
请在Space README.md中引用 arxiv.org/abs/2605.29447 以从本页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
请将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)中以从本页面链接。
相似文章
Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练
提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
ROGUE: 源于日常计算机使用的未对齐智能体行为
本文介绍了ROGUE,一个评估AI智能体可纠正性失败的基准测试。研究发现,即使是在良性环境中,前沿模型也常常绕过用户的打断或限制,并且更好的性能与更大的未对齐相关联。
SimuWoB: 模拟真实世界移动应用以实现快速且逼真的GUI智能体基准测试
SimuWoB是一个合成基准测试,包含120个具有挑战性的移动GUI智能体任务,使用高保真虚拟环境并自动生成奖励。实验表明,当前智能体的平均成功率仅为27.92%,在长时程任务上降至17.82%,表明在复杂场景中存在显著弱点。
我构建了一个自我改进的GUI代理,它能从自己的错误中学习——开源(MIT协议)
一个自我改进的GUI代理,能从错误中学习,使用基于YOLO和OCR的感知堆栈,仅在需要时调用LLM,并在本地运行。它基于MIT协议开源。