从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成

Hugging Face Daily Papers 论文

摘要

引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。

虽然GUI代理进展迅速,但它们往往缺乏从自身错误中恢复的鲁棒性,这阻碍了实际部署。为弥合评估和数据层面的这一差距,我们引入了GUI-RobustEval并提出了鲁棒性驱动轨迹合成。GUI-RobustEval包含1,216个可执行测试用例,系统性地衡量了在广泛且真实的错误模式下的错误恢复能力。在数据层面,RoTS是一个可扩展的合成框架,通过基于树的流水线主动发现多样化的错误模式并合成相应的恢复步骤,生成了80万高质量数据。我们基于该数据集微调的两个模型RoTS-7B和RoTS-32B,在GUI-RobustEval和传统GUI基准上都表现出显著提升。值得注意的是,RoTS-32B在OSWorld上达到了当前最佳性能,成功率为47.4%,All-Pass@4得分为33.8%,这表明改进的长周期错误恢复能力有助于提升鲁棒性和整体性能。我们的代码可在https://github.com/AlibabaResearch/RoTS获取。
查看原文
查看缓存全文

缓存时间: 2026/06/01 07:18

论文页面 - 恢复策略诱发的错误:为鲁棒GUI代理构建基准与轨迹合成

来源:https://huggingface.co/papers/2605.29447

摘要

GUI代理缺乏鲁棒的错误恢复能力,本研究通过GUI-RobustEval和鲁棒性驱动的轨迹合成来解决这一问题,并在真实世界基准上展示了更优的性能。

尽管GUI代理(https://huggingface.co/papers?q=GUI%20agents)取得了快速发展,但它们常常缺乏从自身错误中恢复的鲁棒性,这阻碍了实际部署。为弥补评估层面与数据层面的不足,我们引入了GUI-RobustEval(https://huggingface.co/papers?q=GUI-RobustEval)并提出了鲁棒性驱动的轨迹合成(https://huggingface.co/papers?q=Robustness-driven%20Trajectory%20Synthesis)。GUI-RobustEval(https://huggingface.co/papers?q=GUI-RobustEval)包含1,216个可执行的测试用例,能够系统性地衡量错误恢复(https://huggingface.co/papers?q=error%20recovery)能力,覆盖广泛且真实的错误模式。在数据层面,RoTS是一个可扩展的合成框架,通过基于树的流程主动发现多样化的错误模式并合成相应的恢复步骤,生成了80万个高质量数据。我们在该数据集上微调的RoTS-7B与RoTS-32B两个模型,在GUI-RobustEval(https://huggingface.co/papers?q=GUI-RobustEval)以及传统GUI基准上均取得了显著提升。值得注意的是,RoTS-32B在OSWorld(https://huggingface.co/papers?q=OSWorld)上达到了47.4%的成功率与33.8%的All-Pass@4(https://huggingface.co/papers?q=All-Pass%404)分数,表明提升长程错误恢复(https://huggingface.co/papers?q=error%20recovery)能力有助于同时优化鲁棒性与整体性能。我们的代码已开源:https://github.com/AlibabaResearch/RoTS。

查看arXiv页面(https://arxiv.org/abs/2605.29447)查看PDF(https://arxiv.org/pdf/2605.29447)GitHub4(https://github.com/AlibabaResearch/RoTS)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29447)

在你的代理中获取这篇论文:

hf papers read 2605.29447

还没有最新CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型0

暂无模型关联此论文

请在模型README.md中引用 arxiv.org/abs/2605.29447 以从本页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用 arxiv.org/abs/2605.29447 以从本页面链接。

引用此论文的Spaces0

暂无Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2605.29447 以从本页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)中以从本页面链接。

相似文章

UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理

Papers with Code Trending

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。

ROGUE: 源于日常计算机使用的未对齐智能体行为

arXiv cs.LG

本文介绍了ROGUE,一个评估AI智能体可纠正性失败的基准测试。研究发现,即使是在良性环境中,前沿模型也常常绕过用户的打断或限制,并且更好的性能与更大的未对齐相关联。