标签
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。
一位开发者分享说,解决多轮强化学习中的“tito”问题比普遍认为的要简单,只需要一个实现规则和一个所有模型已经支持的聊天模板属性。
DeepDive 提出了一种自动化方法,利用知识图谱进行数据合成和多轮强化学习,训练深度搜索代理,从而实现复杂的多步推理和网页浏览。
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。