@rohanpaul_ai: 大语言模型可以从没有已知答案的问题中学习更好的编码行为。许多实际问题并没有现成的标准答案...

X AI KOLs Following 2026/06/27 10:00 论文

llm reinforcement-learning coding optimization ai-research heuristic-contest

摘要

论文提出了一种名为 RiVER 的强化学习方法，该方法通过对程序在隐藏测试用例上进行排序并提供分级反馈，提升了大语言模型在没有已知标准答案的问题上的编码表现。

大语言模型可以从没有已知答案的问题中学习更好的编码行为。许多实际问题并没有一个现成的标准答案，尤其是在优化问题中，最佳答案可能是未知的、昂贵的，或者无法验证。标准的强化学习在能够检查明确正确答案时效果很好，但当最佳答案未知时，这种方法就会失效。该论文的方法名为 RiVER，它让模型编写多个程序，在相同的隐藏测试用例上运行，并对表现优于其他的程序给予奖励。关键在于，RiVER 并不直接信任原始分数，因为某些测试用例天然会产生更大的数值，从而扭曲训练过程。相反，它对每个测试用例中的程序进行排序，给予最优程序额外权重，同时仍然为其他有效程序提供较小的分级反馈。作者在 12 个 AtCoder Heuristic Contest 任务上训练了模型，RiVER 既提升了基于分数的竞赛表现，也提高了常规的通过/失败编码基准测试。 ---- 链接 – arxiv. org/abs/2606.27369 标题：《无真实标准解的强化学习能提升大语言模型》

查看原文

查看缓存全文

缓存时间: 2026/06/27 17:59

LLM 可以从没有已知答案的问题中学习更好的编码行为。

许多实际问题并没有一个现成的标准答案存放在数据库中，尤其是在优化领域，最佳答案可能未知、过于昂贵或无法验证。

标准的强化学习在面对有明确正确答案的问题时表现良好，但当最佳答案未知时就会失效。

论文提出的方法名为 RiVER，它让模型编写多个程序，在相同的隐藏测试上运行这些程序，并对表现优于其他程序的程序进行奖励。

关键技巧在于，RiVER 不直接信任原始得分，因为某些测试用例自然会产生更大的数值，从而可能扭曲训练过程。

相反，它在每个测试用例内对程序进行排名，给予最佳程序额外权重，同时对其他有效程序也提供较小的分级反馈。

作者在 12 个 AtCoder 启发式竞赛任务上训练了模型，RiVER 同时提升了基于得分的竞赛表现和常规的通过/失败编码基准测试。

链接 – arxiv. org/abs/2606.27369

标题：“Reinforcement Learning without Ground-Truth Solutions can Improve LLMs”

@rohanpaul_ai: 大语言模型可以从没有已知答案的问题中学习更好的编码行为。许多实际问题并没有现成的标准答案...

相似文章

@rohanpaul_ai: 谷歌的另一篇精彩论文。展示了通用大语言模型可以通过规划证明并检查每一步来解决形式化数学问题。将…

学习如何让大语言模型进行推理

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

超越推理：强化学习释放大型语言模型中的参数化知识

后训练能否使LLM成为优秀的医疗编码员？生成式ICD编码的实证研究

提交意见反馈