@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…
摘要
介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。
查看缓存全文
缓存时间: 2026/06/22 17:49
测试时强化学习
- 取一个无标签问题
- 从 LLM 中采样多个答案
- 多数投票 → 将其视为“答案键”
- 若单个样本与投票结果一致,奖励为 1,否则为 0
- 基于这些奖励进行 RL 更新 – 重复
诀窍在于:模型最常见的答案远比单次尝试更可能正确。多数投票将模型内部已存在的潜在信号浓缩为可用、可验证的奖励。这就是 RLVR——无需答案键。
优点:
- 无需标签 – 在原始无标签测试数据上运行
- 收益巨大(Qwen-2.5-Math-7B:在 AIME 2024 上提升 159%)
- 超越其训练所依赖的 maj@n 上限
- 完全基于模型自身先验的自我改进
缺点:
- 需要基础模型具备足够能力 – 若多数投票结果大部分错误则失败
- 伪标签精度可能在训练中途崩溃
- 对 RL 超参数敏感(学习率、批次大小、温度、轮数)
- 主要在数学 + ~7B 模型上展示,更广规模的验证尚不充分
论文:https://arxiv.org/abs/2504.16084 代码:https://github.com/PRIME-RL/TTRL
在每周小组会议中获得实时一对一帮助和指导——与我们一起每周实时撰写论文、训练 LLM、构建 AI 项目:开启 7 天免费试用:https://skool.com/become-ai-researcher-2669/about…
TTRL:测试时强化学习
来源:https://arxiv.org/abs/2504.16084 作者:Yuxin Zuo (https://arxiv.org/search/cs?searchtype=author&query=Zuo,+Y), Kaiyan Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+K), Li Sheng (https://arxiv.org/search/cs?searchtype=author&query=Sheng,+L), Shang Qu (https://arxiv.org/search/cs?searchtype=author&query=Qu,+S), Ganqu Cui (https://arxiv.org/search/cs?searchtype=author&query=Cui,+G), Xuekai Zhu (https://arxiv.org/search/cs?searchtype=author&query=Zhu,+X), Haozhan Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+H), Yuchen Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Y), Xinwei Long (https://arxiv.org/search/cs?searchtype=author&query=Long,+X), Ermo Hua (https://arxiv.org/search/cs?searchtype=author&query=Hua,+E), Biqing Qi (https://arxiv.org/search/cs?searchtype=author&query=Qi,+B), Youbang Sun (https://arxiv.org/search/cs?searchtype=author&query=Sun,+Y), Zhiyuan Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+Z), Lifan Yuan (https://arxiv.org/search/cs?searchtype=author&query=Yuan,+L), Ning Ding (https://arxiv.org/search/cs?searchtype=author&query=Ding,+N), Bowen Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+B)
查看 PDF (https://arxiv.org/pdf/2504.16084)
摘要: 本文研究了在大语言模型(LLM)的推理任务中,对无显式标签的数据进行强化学习(RL)的问题。该问题的核心挑战在于推理过程中无法访问真实信息来进行奖励估计。虽然这一设定看似难以实现,但我们发现测试时缩放(TTS)中的常见做法(例如多数投票)能够产生出人意料的有效奖励,足以驱动 RL 训练。在本文中,我们提出了测试时强化学习(TTRL),一种在无标签数据上使用 RL 训练 LLM 的新方法。TTRL 利用预训练模型中的先验知识,实现了 LLM 的自我进化。我们的实验表明,TTRL 在多种任务和模型上均能持续提升性能。值得注意的是,仅使用无标签测试数据,TTRL 就将 Qwen-2.5-Math-7B 在 AIME 2024 上的 pass@1 性能提升了约 211%。此外,尽管 TTRL 仅受 maj@n 指标的监督,但它的性能持续超越了初始模型 maj@n 的上限,并且接近直接在带真实标签的测试数据上训练的模型性能。我们的实验结果验证了 TTRL 在多种任务中的普遍有效性,并突显了 TTRL 在更广泛任务和领域中的应用潜力。GitHub:此 https URL (https://github.com/PRIME-RL/TTRL)
提交历史
来自:Kaiyan Zhang [查看邮件 (https://arxiv.org/show-email/8e727491/2504.16084)] [v1] 2025 年 4 月 22 日星期二 17:59:56 UTC (260 KB) [v2] 2025 年 5 月 22 日星期四 16:26:55 UTC (265 KB) [v3] 2025 年 6 月 30 日星期一 15:59:26 UTC (277 KB)
相似文章
ExpRL:面向LLM中期训练的探索式强化学习
ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。
通过图灵奖励训练用户模拟器
本文介绍了一种名为Turing-RL的强化学习方法,该方法利用基于图灵测试的奖励来训练语言模型,使其在对话和论坛场景中生成与人类用户无法区分的回复,性能优于基线方法。
@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展!传统 RL 假装您可以将所有奖励信号压缩为...
介绍了向量策略优化(VPO),一种新的 RL 方法,通过处理向量值奖励来改进 LLM 的测试时扩展,优于传统的标量奖励方法。
@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间,得出的结论是……
一位开发者分享说,解决多轮强化学习中的“tito”问题比普遍认为的要简单,只需要一个实现规则和一个所有模型已经支持的聊天模板属性。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。