自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

Reddit r/singularity 2026/05/15 04:47 论文

self-play llm reward-hacking language-models theorem-proving lean4 scaling-laws

摘要

研究人员引入了自导自对弈（Self-Guided Self-Play, SGS），这是一种用于LLM的自我对弈算法，通过使用指引角色（Guide）对合成问题进行评分来防止奖励作弊（reward hacking）。应用于Lean4中的定理证明时，SGS超越了强化学习基线，并使7B模型胜过671B模型。

https://arxiv.org/abs/2604.20209 https://github.com/LukeBailey181/sgs LLM自我对弈算法的一个显著特点是，理论上，它们的学习没有任何界限：猜想者模型（Conjecturer）为求解者模型（Solver）创造问题，两者共同改进。然而在实践中，现有的LLM自我对弈方法无法随大量计算资源良好扩展，反而会陷入学习平台期。我们认为，这是因为长时间的训练中，猜想者学会了作弊以获取奖励，产生人为复杂且无助于求解者改进的问题。为了克服这一问题，我们引入了自导自对弈（Self-Guided Self-Play, SGS），这是一种自我对弈算法，其中语言模型本身引导猜想者远离退化。在SGS中，模型承担三个角色：求解者、猜想者，以及一个指引者（Guide），后者根据合成问题与未解决目标问题的相关性、问题的清晰度和自然性对其进行评分，从而提供监督以防止猜想者崩溃。我们的核心假设是，语言模型能够评估一个子问题是否有助于实现目标。我们通过比以往研究更长的训练时间、以及为累积解决率曲线拟合缩放定律，来评估SGS的扩展特性。将SGS应用于Lean4中的形式化定理证明，我们发现，它在不到80轮自我对弈中便超越了最强RL基线的渐近解决率，并使得一个7B参数模型在经过200轮自我对弈后，能够解决比671B参数模型pass@4更多的问题。

查看原文

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

相似文章

更令人信服，而非更正确：无参考LLM评判者的自我博弈奖励操纵

# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力

OpenAI的最新研究表明，LLM能够解决数学领域的前沿问题（1分钟阅读）

通过自我对弈发现格基约简策略

@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…

提交意见反馈