@rohanpaul_ai: 大语言模型可以从没有已知答案的问题中学习更好的编码行为。许多实际问题并没有现成的标准答案...

X AI KOLs Following 论文

摘要

论文提出了一种名为 RiVER 的强化学习方法,该方法通过对程序在隐藏测试用例上进行排序并提供分级反馈,提升了大语言模型在没有已知标准答案的问题上的编码表现。

大语言模型可以从没有已知答案的问题中学习更好的编码行为。 许多实际问题并没有一个现成的标准答案,尤其是在优化问题中,最佳答案可能是未知的、昂贵的,或者无法验证。 标准的强化学习在能够检查明确正确答案时效果很好,但当最佳答案未知时,这种方法就会失效。 该论文的方法名为 RiVER,它让模型编写多个程序,在相同的隐藏测试用例上运行,并对表现优于其他的程序给予奖励。 关键在于,RiVER 并不直接信任原始分数,因为某些测试用例天然会产生更大的数值,从而扭曲训练过程。 相反,它对每个测试用例中的程序进行排序,给予最优程序额外权重,同时仍然为其他有效程序提供较小的分级反馈。 作者在 12 个 AtCoder Heuristic Contest 任务上训练了模型,RiVER 既提升了基于分数的竞赛表现,也提高了常规的通过/失败编码基准测试。 ---- 链接 – arxiv. org/abs/2606.27369 标题:《无真实标准解的强化学习能提升大语言模型》
查看原文
查看缓存全文

缓存时间: 2026/06/27 17:59

LLM 可以从没有已知答案的问题中学习更好的编码行为。

许多实际问题并没有一个现成的标准答案存放在数据库中,尤其是在优化领域,最佳答案可能未知、过于昂贵或无法验证。

标准的强化学习在面对有明确正确答案的问题时表现良好,但当最佳答案未知时就会失效。

论文提出的方法名为 RiVER,它让模型编写多个程序,在相同的隐藏测试上运行这些程序,并对表现优于其他程序的程序进行奖励。

关键技巧在于,RiVER 不直接信任原始得分,因为某些测试用例自然会产生更大的数值,从而可能扭曲训练过程。

相反,它在每个测试用例内对程序进行排名,给予最佳程序额外权重,同时对其他有效程序也提供较小的分级反馈。

作者在 12 个 AtCoder 启发式竞赛任务上训练了模型,RiVER 同时提升了基于得分的竞赛表现和常规的通过/失败编码基准测试。


链接 – arxiv. org/abs/2606.27369

标题:“Reinforcement Learning without Ground-Truth Solutions can Improve LLMs”

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。

后训练能否使LLM成为优秀的医疗编码员?生成式ICD编码的实证研究

arXiv cs.CL

这项实证研究探讨了后训练(监督微调和强化学习)能否提升LLM在自动化ICD编码上的表现,引入了一种名为PHI的诊断课程,扩展了GRPO以改进遗漏编码案例。结果表明,仅使用提示评估低估了LLM的潜力,SFT提供了主要的能力跃升,而RL进一步提升了性能。