@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间,得出的结论是……
摘要
一位开发者分享说,解决多轮强化学习中的“tito”问题比普遍认为的要简单,只需要一个实现规则和一个所有模型已经支持的聊天模板属性。
查看缓存全文
缓存时间: 2026/05/29 11:45
multi-turn RL 和 “tito” 问题不断被提及。我们已经研究了一段时间,结论是它远比人们想象的要简单。
它只需要 1 条实现规则,以及 1 个所有模型都已遵守的聊天模板属性。
就这样。https://t.co/O7BeRiPi5Y
相似文章
Agentic RL: Token-In, Token-Out Done Right (16 minute read)
This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。
@SOURADIPCHAKR18:我们描述了关于*教学RL*的早期实验:一种苦教训式的*训练*特权自我教师…
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。