@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间，得出的结论是……

X AI KOLs Following 2026/05/28 09:28 工具

摘要

一位开发者分享说，解决多轮强化学习中的“tito”问题比普遍认为的要简单，只需要一个实现规则和一个所有模型已经支持的聊天模板属性。

多轮强化学习和“tito”问题反复出现。我们研究了一段时间，得出的结论是它比人们想象的要简单得多。只需要1个实现规则，和1个所有模型都已遵守的聊天模板属性。 **仅此而已** https://t.co/O7BeRiPi5Y

查看原文

查看缓存全文

缓存时间: 2026/05/29 11:45

multi-turn RL 和 “tito” 问题不断被提及。我们已经研究了一段时间，结论是它远比人们想象的要简单。

它只需要 1 条实现规则，以及 1 个所有模型都已遵守的聊天模板属性。

就这样。https://t.co/O7BeRiPi5Y

相似文章

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间，得出的结论是……

相似文章

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

UI-TARS-2 技术报告：通过多轮强化学习推进图形用户界面代理

@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

@SOURADIPCHAKR18：我们描述了关于教学RL的早期实验：一种苦教训式的训练特权自我教师…

提交意见反馈

相似文章

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

UI-TARS-2 技术报告：通过多轮强化学习推进图形用户界面代理

@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

@SOURADIPCHAKR18：我们描述了关于*教学RL*的早期实验：一种苦教训式的*训练*特权自我教师…

提交意见反馈

@SOURADIPCHAKR18：我们描述了关于教学RL的早期实验：一种苦教训式的训练特权自我教师…