@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…

X AI KOLs Timeline 2026/06/22 04:04 论文

摘要

介绍了测试时强化学习（TTRL），一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法，使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升（例如，Qwen-2.5-Math-7B提升159-211%）。

Test Time Reinforcement Learning 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → 将其视为“参考答案” 4. 如果某个样本与投票结果一致，则奖励为1，否则为0 5. 基于这些奖励进行强化学习更新 - 重复诀窍在于：模型的多数答案比任何单次尝试都要正确得多。多数投票将模型中已有的潜在信号集中到一个可用且可验证的奖励中。这就是RLVR——无需参考答案。优点： • 无需标注——直接在原始未标注的测试数据上运行 • 收益显著（Qwen-2.5-Math-7B：在AIME 2024上提升159%） • 超越训练所用的maj@n上限 • 纯粹利用模型自身先验进行自我改进缺点： • 需要基础模型能力足够强——如果多数投票大部分是错误的，则方法失效 • 伪标签的准确率可能在训练过程中崩溃 • 对强化学习超参数（学习率、批量大小、温度、轮数）敏感 • 目前主要在数学和~7B模型上验证，更广泛的规模尚待证实论文：https://arxiv.org/abs/2504.16084 代码：https://github.com/PRIME-RL/TTRL --- 每周小组会议提供一对一的实时帮助和指导——与我们一同每周撰写论文、训练LLM、构建AI项目：立即开始7天免费试用：https://skool.com/become-ai-researcher-2669/about…

查看原文

查看缓存全文

缓存时间: 2026/06/22 17:49

测试时强化学习

取一个无标签问题
从 LLM 中采样多个答案
多数投票 → 将其视为“答案键”
若单个样本与投票结果一致，奖励为 1，否则为 0
基于这些奖励进行 RL 更新 – 重复

诀窍在于：模型最常见的答案远比单次尝试更可能正确。多数投票将模型内部已存在的潜在信号浓缩为可用、可验证的奖励。这就是 RLVR——无需答案键。

优点：

无需标签 – 在原始无标签测试数据上运行
收益巨大（Qwen-2.5-Math-7B：在 AIME 2024 上提升 159%）
超越其训练所依赖的 maj@n 上限
完全基于模型自身先验的自我改进

缺点：

需要基础模型具备足够能力 – 若多数投票结果大部分错误则失败
伪标签精度可能在训练中途崩溃
对 RL 超参数敏感（学习率、批次大小、温度、轮数）
主要在数学 + ~7B 模型上展示，更广规模的验证尚不充分

论文：https://arxiv.org/abs/2504.16084 代码：https://github.com/PRIME-RL/TTRL

在每周小组会议中获得实时一对一帮助和指导——与我们一起每周实时撰写论文、训练 LLM、构建 AI 项目：开启 7 天免费试用：https://skool.com/become-ai-researcher-2669/about…

TTRL：测试时强化学习

来源：https://arxiv.org/abs/2504.16084 作者：Yuxin Zuo (https://arxiv.org/search/cs?searchtype=author&query=Zuo,+Y), Kaiyan Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+K), Li Sheng (https://arxiv.org/search/cs?searchtype=author&query=Sheng,+L), Shang Qu (https://arxiv.org/search/cs?searchtype=author&query=Qu,+S), Ganqu Cui (https://arxiv.org/search/cs?searchtype=author&query=Cui,+G), Xuekai Zhu (https://arxiv.org/search/cs?searchtype=author&query=Zhu,+X), Haozhan Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+H), Yuchen Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Y), Xinwei Long (https://arxiv.org/search/cs?searchtype=author&query=Long,+X), Ermo Hua (https://arxiv.org/search/cs?searchtype=author&query=Hua,+E), Biqing Qi (https://arxiv.org/search/cs?searchtype=author&query=Qi,+B), Youbang Sun (https://arxiv.org/search/cs?searchtype=author&query=Sun,+Y), Zhiyuan Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+Z), Lifan Yuan (https://arxiv.org/search/cs?searchtype=author&query=Yuan,+L), Ning Ding (https://arxiv.org/search/cs?searchtype=author&query=Ding,+N), Bowen Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+B)

查看 PDF (https://arxiv.org/pdf/2504.16084)

摘要： 本文研究了在大语言模型（LLM）的推理任务中，对无显式标签的数据进行强化学习（RL）的问题。该问题的核心挑战在于推理过程中无法访问真实信息来进行奖励估计。虽然这一设定看似难以实现，但我们发现测试时缩放（TTS）中的常见做法（例如多数投票）能够产生出人意料的有效奖励，足以驱动 RL 训练。在本文中，我们提出了测试时强化学习（TTRL），一种在无标签数据上使用 RL 训练 LLM 的新方法。TTRL 利用预训练模型中的先验知识，实现了 LLM 的自我进化。我们的实验表明，TTRL 在多种任务和模型上均能持续提升性能。值得注意的是，仅使用无标签测试数据，TTRL 就将 Qwen-2.5-Math-7B 在 AIME 2024 上的 pass@1 性能提升了约 211%。此外，尽管 TTRL 仅受 maj@n 指标的监督，但它的性能持续超越了初始模型 maj@n 的上限，并且接近直接在带真实标签的测试数据上训练的模型性能。我们的实验结果验证了 TTRL 在多种任务中的普遍有效性，并突显了 TTRL 在更广泛任务和领域中的应用潜力。GitHub：此 https URL (https://github.com/PRIME-RL/TTRL)

提交历史

来自：Kaiyan Zhang [查看邮件 (https://arxiv.org/show-email/8e727491/2504.16084)] [v1] 2025 年 4 月 22 日星期二 17:59:56 UTC (260 KB) [v2] 2025 年 5 月 22 日星期四 16:26:55 UTC (265 KB) [v3] 2025 年 6 月 30 日星期一 15:59:26 UTC (277 KB)

@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…

测试时强化学习

TTRL：测试时强化学习

提交历史

相似文章

ExpRL：面向LLM中期训练的探索式强化学习

通过图灵奖励训练用户模拟器

@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展！传统 RL 假装您可以将所有奖励信号压缩为...

@QGallouedec: 多轮强化学习中的“tito”问题反复出现。我们研究了一段时间，得出的结论是……

超越推理：强化学习释放大型语言模型中的参数化知识

提交意见反馈