OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers 论文

摘要

OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。

构建能力强大的视觉网页代理需要长程推理、精确定位以及与动态真实网站的稳健交互。尽管进展迅速,最强的系统仍大多是专有的,而开放代理仍然严重依赖于在大量精选网络轨迹上进行监督式后训练。这种依赖造成了主要的可扩展性瓶颈:高质量演示数据收集成本高昂,且静态数据集对多样化、不断变化的开放网络的覆盖有限。虽然在线强化学习已在基于文本的代理中显示出潜力,但其直接在实时网站上训练视觉网页代理的潜力仍未得到充分探索。在本文中,我们介绍了OpenWebRL,这是一个用于在真实网站上通过在线多轮强化学习训练视觉网页代理的开放框架。OpenWebRL涵盖了完整的训练流程,包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级别成功判断以及高效的多轮策略优化。利用该框架,我们训练了OpenWebRL-4B,在具有挑战性的实时网页基准测试中树立了新的开源最优水平。仅使用0.4K初始化轨迹和2.2K开放式RL训练任务,OpenWebRL-4B在Online-Mind2Web上达到了67.0%的成功率,在DeepShop上达到64.0%,优于先前类似或更大规模的开放代理,并与包括OpenAI CUA和Gemini CUA在内的专有系统保持竞争力。除了强劲的基准性能,我们系统研究了使在线强化学习对视觉网页代理有效的关键设计选择,并分析了强化学习如何改进代理推理。总体而言,我们的工作为构建更强大、可复现且成本高效的开放网页代理提供了一条实际路径。我们将发布训练数据、模型和代码以支持未来研究。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习

来源:https://huggingface.co/papers/2606.02031

摘要

OpenWebRL 提出了一种框架,通过在真实网站上使用在线强化学习训练视觉网页代理,在极少初始监督下实现了最优性能。

构建具备能力的视觉网页代理需要长程推理、精确的接地以及在与动态真实网站交互中的稳健性。尽管进展迅速,但最强的系统大多仍为专有,而开源代理依然严重依赖在大量精选网页轨迹上进行监督式后训练。这种依赖性造成了严重的可扩展性瓶颈:高质量演示数据收集成本高昂,且静态数据集对多样化、不断变化的开放网页覆盖有限。虽然在线 RL 在文本代理中已展现出潜力,但其直接训练视觉网页代理使其能够实时操作真实网站的潜力仍未得到充分探索。本文中,我们介绍了 OpenWebRL,这是一个在真实网站上使用在线多轮强化学习训练视觉网页代理的开放框架。OpenWebRL 覆盖了完整的训练流水线,包括可扩展的实时浏览器基础设施、监督式初始化、多模态上下文管理、轨迹级成功判定以及高效的多轮策略优化。利用该框架,我们训练了 OpenWebRL-4B,在具有挑战性的实时网页基准测试上树立了新的开源最优水平。仅使用 0.4K 条初始化轨迹和 2.2K 个开放式 RL 训练任务,OpenWebRL-4B 在 Online-Mind2Web 上取得了 67.0% 的成功率,在 DeepShop 上取得了 64.0% 的成功率,优于先前相似或更大规模的开源代理,并与包括 OpenAI CUA 和 Gemini CUA 在内的专有系统保持竞争力。除了强大的基准性能外,我们系统性地研究了使在线 RL 对视觉网页代理有效的关键设计选择,并分析了 RL 如何提升智能体推理能力。总体而言,我们的工作为构建更强大、可复现且成本效益更高的开源网页代理提供了一条实用路径。我们将发布训练数据、模型和代码,以支持未来的研究。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02031)
查看 PDF (https://arxiv.org/pdf/2606.02031)
项目页面 (https://openwebrl.github.io/)
GitHub (https://github.com/OpenWebRL/OpenWebRL)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02031)

在你的代理中获取这篇论文:

hf papers read 2606.02031

没有最新的 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接到本论文

在模型 README.md 中引用 arxiv.org/abs/2606.02031 即可在此页面链接它。

引用本论文的数据集 0

没有数据集链接到本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.02031 即可在此页面链接它。

引用本论文的 Spaces 0

没有 Space 链接到本论文

在 Space README.md 中引用 arxiv.org/abs/2606.02031 即可在此页面链接它。

收录本论文的收藏集 0

没有收藏集包含本论文

将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可在此页面链接它。

相似文章

AsyncWebRL:面向视觉Web代理的高效多步强化学习

arXiv cs.LG

AsyncWebRL提出了一种异步多步强化学习系统,用于视觉语言Web代理,通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题,实现了高达2.9倍的训练加速,并在WebGym上取得了新的最优结果。

UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理

Papers with Code Trending

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。

UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。