@ChenHenryWu: 自我提升取决于模型能否判断自身工作。我们通常训练模型生成更好的内容——为什么不也训练它们进行同等水平的验证?

X AI KOLs Timeline 论文

摘要

这条推文线程介绍了一项研究:训练模型验证自身工作,可使模型在复杂数学问题上的准确率几乎翻倍,并将科学推理能力提升14倍。

自我提升取决于模型能否判断自身工作。我们通常训练模型生成更好的内容——为什么不也训练它们进行同等水平的验证? 我们展示了如何训练模型定位自身错误,同一模型在复杂数学问题上的准确率几乎翻倍,在科学推理方面提升了14倍。1/5
查看原文
查看缓存全文

缓存时间: 2026/06/06 01:22

自我改进取决于模型能否判断自身的工作。我们通常训练模型生成更好的结果——为何不训练它们同样擅长验证?

我们展示了如何训练模型精准定位自身错误,从而使同一模型在困难数学问题上的准确率几乎翻倍,在科学推理上的表现提升14倍。1/5

我们希望验证不仅能判断解答是否错误,还能指出错误的位置和原因,从而使自我改进有明确方向。但我们应该如何训练模型实现这一点?

我们的核心思路:向模型展示参考答案,使其拥有更多上下文,从而自我学习推理错误所在及其原因。我们将此称为自我训练验证(Self-Trained Verification,STV)。随后将其纳入循环,在测试和训练阶段均进行改进。2/5

在测试阶段,经过训练的验证器使改进真正实现规模化。STV在困难数学问题上的pass@1几乎翻倍,并且拥有足够验证计算资源时,STV引导的8B模型甚至超越了4倍规模的模型。3/5

接下来,我们探究验证器在循环(Verifier-in-the-Loop,ViL)训练是否能在标准RLVR(强化学习验证推理)达到饱和后,进一步提升生成器自身性能。

在测试时验证的情况下,我们观察到pass@1提升了33%,这符合预期,因为生成器学会了利用验证器的输出。

令人意外的是:即使在推理时不使用验证器,单独生成器的pass@1也提升了30%。4/5

相似文章