OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习
摘要
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。
查看缓存全文
缓存时间: 2026/06/02 15:37
论文页面 - OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习
来源:https://huggingface.co/papers/2606.02031
摘要
OpenWebRL 提出了一种框架,通过在真实网站上使用在线强化学习训练视觉网页代理,在极少初始监督下实现了最优性能。
构建具备能力的视觉网页代理需要长程推理、精确的接地以及在与动态真实网站交互中的稳健性。尽管进展迅速,但最强的系统大多仍为专有,而开源代理依然严重依赖在大量精选网页轨迹上进行监督式后训练。这种依赖性造成了严重的可扩展性瓶颈:高质量演示数据收集成本高昂,且静态数据集对多样化、不断变化的开放网页覆盖有限。虽然在线 RL 在文本代理中已展现出潜力,但其直接训练视觉网页代理使其能够实时操作真实网站的潜力仍未得到充分探索。本文中,我们介绍了 OpenWebRL,这是一个在真实网站上使用在线多轮强化学习训练视觉网页代理的开放框架。OpenWebRL 覆盖了完整的训练流水线,包括可扩展的实时浏览器基础设施、监督式初始化、多模态上下文管理、轨迹级成功判定以及高效的多轮策略优化。利用该框架,我们训练了 OpenWebRL-4B,在具有挑战性的实时网页基准测试上树立了新的开源最优水平。仅使用 0.4K 条初始化轨迹和 2.2K 个开放式 RL 训练任务,OpenWebRL-4B 在 Online-Mind2Web 上取得了 67.0% 的成功率,在 DeepShop 上取得了 64.0% 的成功率,优于先前相似或更大规模的开源代理,并与包括 OpenAI CUA 和 Gemini CUA 在内的专有系统保持竞争力。除了强大的基准性能外,我们系统性地研究了使在线 RL 对视觉网页代理有效的关键设计选择,并分析了 RL 如何提升智能体推理能力。总体而言,我们的工作为构建更强大、可复现且成本效益更高的开源网页代理提供了一条实用路径。我们将发布训练数据、模型和代码,以支持未来的研究。
查看 arXiv 页面 (https://arxiv.org/abs/2606.02031)
查看 PDF (https://arxiv.org/pdf/2606.02031)
项目页面 (https://openwebrl.github.io/)
GitHub (https://github.com/OpenWebRL/OpenWebRL)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02031)
在你的代理中获取这篇论文:
hf papers read 2606.02031
没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接到本论文
在模型 README.md 中引用 arxiv.org/abs/2606.02031 即可在此页面链接它。
引用本论文的数据集 0
没有数据集链接到本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.02031 即可在此页面链接它。
引用本论文的 Spaces 0
没有 Space 链接到本论文
在 Space README.md 中引用 arxiv.org/abs/2606.02031 即可在此页面链接它。
收录本论文的收藏集 0
没有收藏集包含本论文
将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可在此页面链接它。
相似文章
AsyncWebRL:面向视觉Web代理的高效多步强化学习
AsyncWebRL提出了一种异步多步强化学习系统,用于视觉语言Web代理,通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题,实现了高达2.9倍的训练加速,并在WebGym上取得了新的最优结果。
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
Weblica:用于视觉 Web 智能体的可扩展且可复现的训练环境
Apple Research 推出了 Weblica,这是一个利用 HTTP 缓存和基于大语言模型(LLM)的合成技术,为视觉 Web 智能体创建可扩展且可复现训练环境的框架。
UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG
UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。
通过工具监督强化学习实现视觉推理
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。