@ChenHenryWu: 自我提升取决于模型能否判断自身工作。我们通常训练模型生成更好的内容——为什么不也训练它们进行同等水平的验证?
摘要
这条推文线程介绍了一项研究:训练模型验证自身工作,可使模型在复杂数学问题上的准确率几乎翻倍,并将科学推理能力提升14倍。
查看缓存全文
缓存时间: 2026/06/06 01:22
自我改进取决于模型能否判断自身的工作。我们通常训练模型生成更好的结果——为何不训练它们同样擅长验证?
我们展示了如何训练模型精准定位自身错误,从而使同一模型在困难数学问题上的准确率几乎翻倍,在科学推理上的表现提升14倍。1/5
我们希望验证不仅能判断解答是否错误,还能指出错误的位置和原因,从而使自我改进有明确方向。但我们应该如何训练模型实现这一点?
我们的核心思路:向模型展示参考答案,使其拥有更多上下文,从而自我学习推理错误所在及其原因。我们将此称为自我训练验证(Self-Trained Verification,STV)。随后将其纳入循环,在测试和训练阶段均进行改进。2/5
在测试阶段,经过训练的验证器使改进真正实现规模化。STV在困难数学问题上的pass@1几乎翻倍,并且拥有足够验证计算资源时,STV引导的8B模型甚至超越了4倍规模的模型。3/5
接下来,我们探究验证器在循环(Verifier-in-the-Loop,ViL)训练是否能在标准RLVR(强化学习验证推理)达到饱和后,进一步提升生成器自身性能。
在测试时验证的情况下,我们观察到pass@1提升了33%,这符合预期,因为生成器学会了利用验证器的输出。
令人意外的是:即使在推理时不使用验证器,单独生成器的pass@1也提升了30%。4/5
相似文章
让小型模型在自身错误中训练:它在HumanEval上达到80%,并在数学上超越GPT-3.5
一位研究人员让小型语言模型在自己生成的编程错误和修正上进行训练,在HumanEval上达到80%,并在数学上超越GPT-3.5,展示了在极少资源下的有效自我改进。
@bcherny:我们经常讨论设置自我验证循环的重要性。尤其是在强大模型日益普及的时代…
讨论在像Claude这样的AI模型中自我验证循环的重要性,以提高可靠性并减少人工监督的需要。
@rohanpaul_ai: 一篇关于推理模型训练后如何改进的入门论文 表明更好的推理模型较少依赖原始……
这篇入门论文探讨了推理模型在训练后如何改进,认为有效的推理数据更多地依赖于可检查的训练证据而非原始数据量。它根据验证方法对推理数据进行分类,并强调保留混乱的智能体数据以获取学习信号。
@omarsar0: 关于自我改进代理的非常好的建议。(收藏)这是我正在自己的实验中观察到的现象,关于编码...
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。
@bradenjhancock: 换句话说:人类正在教教师模型如何像优秀的人类教师教其他人那样教其他模…
人类正在训练教师模型,使其以循序渐进的方式教学生模型,并对跳跃式教学进行惩罚,从而提高模型的智能。