@rohanpaul_ai: 大语言模型可以从没有已知答案的问题中学习更好的编码行为。许多实际问题并没有现成的标准答案...
摘要
论文提出了一种名为 RiVER 的强化学习方法,该方法通过对程序在隐藏测试用例上进行排序并提供分级反馈,提升了大语言模型在没有已知标准答案的问题上的编码表现。
查看缓存全文
缓存时间: 2026/06/27 17:59
LLM 可以从没有已知答案的问题中学习更好的编码行为。
许多实际问题并没有一个现成的标准答案存放在数据库中,尤其是在优化领域,最佳答案可能未知、过于昂贵或无法验证。
标准的强化学习在面对有明确正确答案的问题时表现良好,但当最佳答案未知时就会失效。
论文提出的方法名为 RiVER,它让模型编写多个程序,在相同的隐藏测试上运行这些程序,并对表现优于其他程序的程序进行奖励。
关键技巧在于,RiVER 不直接信任原始得分,因为某些测试用例自然会产生更大的数值,从而可能扭曲训练过程。
相反,它在每个测试用例内对程序进行排名,给予最佳程序额外权重,同时对其他有效程序也提供较小的分级反馈。
作者在 12 个 AtCoder 启发式竞赛任务上训练了模型,RiVER 同时提升了基于得分的竞赛表现和常规的通过/失败编码基准测试。
链接 – arxiv. org/abs/2606.27369
标题:“Reinforcement Learning without Ground-Truth Solutions can Improve LLMs”
相似文章
@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…
谷歌新论文提出LEAP框架,一种智能体框架,使通用大语言模型能够通过规划证明并检查每一步来解决形式化数学问题,在Lean IMO基准测试上将性能从低于10%提升至70%,并解决了所有2025年的Putnam问题。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
后训练能否使LLM成为优秀的医疗编码员?生成式ICD编码的实证研究
这项实证研究探讨了后训练(监督微调和强化学习)能否提升LLM在自动化ICD编码上的表现,引入了一种名为PHI的诊断课程,扩展了GRPO以改进遗漏编码案例。结果表明,仅使用提示评估低估了LLM的潜力,SFT提供了主要的能力跃升,而RL进一步提升了性能。