@ChenHenryWu: 自我提升取决于模型能否判断自身工作。我们通常训练模型生成更好的内容——为什么不也训练它们进行同等水平的验证？

X AI KOLs Timeline 2026/06/05 19:52 论文

self-improvement verification error-pinpointing training math-reasoning scientific-reasoning

摘要

这条推文线程介绍了一项研究：训练模型验证自身工作，可使模型在复杂数学问题上的准确率几乎翻倍，并将科学推理能力提升14倍。

自我提升取决于模型能否判断自身工作。我们通常训练模型生成更好的内容——为什么不也训练它们进行同等水平的验证？我们展示了如何训练模型定位自身错误，同一模型在复杂数学问题上的准确率几乎翻倍，在科学推理方面提升了14倍。1/5

查看原文

查看缓存全文

缓存时间: 2026/06/06 01:22

自我改进取决于模型能否判断自身的工作。我们通常训练模型生成更好的结果——为何不训练它们同样擅长验证？

我们展示了如何训练模型精准定位自身错误，从而使同一模型在困难数学问题上的准确率几乎翻倍，在科学推理上的表现提升14倍。1/5

我们希望验证不仅能判断解答是否错误，还能指出错误的位置和原因，从而使自我改进有明确方向。但我们应该如何训练模型实现这一点？

我们的核心思路：向模型展示参考答案，使其拥有更多上下文，从而自我学习推理错误所在及其原因。我们将此称为自我训练验证（Self-Trained Verification，STV）。随后将其纳入循环，在测试和训练阶段均进行改进。2/5

在测试阶段，经过训练的验证器使改进真正实现规模化。STV在困难数学问题上的pass@1几乎翻倍，并且拥有足够验证计算资源时，STV引导的8B模型甚至超越了4倍规模的模型。3/5

接下来，我们探究验证器在循环（Verifier-in-the-Loop，ViL）训练是否能在标准RLVR（强化学习验证推理）达到饱和后，进一步提升生成器自身性能。

在测试时验证的情况下，我们观察到pass@1提升了33%，这符合预期，因为生成器学会了利用验证器的输出。

令人意外的是：即使在推理时不使用验证器，单独生成器的pass@1也提升了30%。4/5

相似文章