multi-turn-rl

#multi-turn-rl

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

OpenWebRL提出了一个开放框架，用于在真实网站上利用在线多轮强化学习训练视觉网页代理，以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理，并与OpenAI CUA和Gemini CUA等专有系统竞争。

0 人收藏 0 人点赞

#multi-turn-rl

@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间，得出的结论是……

X AI KOLs Following ↗ · 2026-05-28 缓存

一位开发者分享说，解决多轮强化学习中的“tito”问题比普遍认为的要简单，只需要一个实现规则和一个所有模型已经支持的聊天模板属性。

0 人收藏 0 人点赞

#multi-turn-rl

@tom_doerr: 从知识图谱训练深度搜索代理 https://github.com/THUDM/DeepDive

X AI KOLs Timeline ↗ · 2026-05-16 缓存

DeepDive 提出了一种自动化方法，利用知识图谱进行数据合成和多轮强化学习，训练深度搜索代理，从而实现复杂的多步推理和网页浏览。

0 人收藏 0 人点赞

#multi-turn-rl

UI-TARS-2 技术报告：通过多轮强化学习推进图形用户界面代理

Papers with Code Trending ↗ · 2025-09-02 缓存

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型，解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战，在图形用户界面基准测试中取得了领先成果（Online-Mind2Web 88.2 分，OSWorld 47.5 分，WindowsAgentArena 50.6 分，AndroidWorld 73.3 分），优于 Claude 和 OpenAI 代理模型。

0 人收藏 0 人点赞

multi-turn-rl

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间，得出的结论是……

@tom_doerr: 从知识图谱训练深度搜索代理 https://github.com/THUDM/DeepDive

UI-TARS-2 技术报告：通过多轮强化学习推进图形用户界面代理

提交意见反馈