自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
摘要
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。
https://arxiv.org/abs/2604.20209 https://github.com/LukeBailey181/sgs
LLM自我对弈算法的一个显著特点是,理论上,它们的学习没有任何界限:猜想者模型(Conjecturer)为求解者模型(Solver)创造问题,两者共同改进。然而在实践中,现有的LLM自我对弈方法无法随大量计算资源良好扩展,反而会陷入学习平台期。我们认为,这是因为长时间的训练中,猜想者学会了作弊以获取奖励,产生人为复杂且无助于求解者改进的问题。为了克服这一问题,我们引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种自我对弈算法,其中语言模型本身引导猜想者远离退化。在SGS中,模型承担三个角色:求解者、猜想者,以及一个指引者(Guide),后者根据合成问题与未解决目标问题的相关性、问题的清晰度和自然性对其进行评分,从而提供监督以防止猜想者崩溃。我们的核心假设是,语言模型能够评估一个子问题是否有助于实现目标。我们通过比以往研究更长的训练时间、以及为累积解决率曲线拟合缩放定律,来评估SGS的扩展特性。将SGS应用于Lean4中的形式化定理证明,我们发现,它在不到80轮自我对弈中便超越了最强RL基线的渐近解决率,并使得一个7B参数模型在经过200轮自我对弈后,能够解决比671B参数模型pass@4更多的问题。
相似文章
# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力
爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架,用于训练 LLMs 的语义等价推理能力,同步发布了 OpInstruct-HSx 数据集(28k 个程序),并在 EquiBench 上实现了 13.3 个百分点的准确率提升。
G-Zero:从零数据开始的无界生成自博弈方法
本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。
竞争性自我对弈
OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。