元认知作为奖励:通过知识与调控信号强化大语言模型推理
摘要
介绍了元认知即奖励(MaR),一个基于元认知知识与调控信号指导大语言模型推理的强化学习框架,在推理基准上相比基准方法最高提升11%。
arXiv:2605.23384v1 公告类型:新论文
摘要:近期强化学习方法显著提升了大型语言模型的推理能力。现有奖励设计主要遵循两种范式:(1)基于可验证奖励的强化学习(RLVR)通过可执行检查或正确结果来获得结果信号,但对中间推理行为提供的指导有限。(2)评分标准作为奖励(RaR)超越最终答案检查,通过使用自然语言评分标准来评估推理质量和任务符合度,但通常需要针对具体实例的评分标准和大量设计工作。为解决这些问题,我们提出了元认知即奖励(MaR),一种受元认知启发的强化学习框架,通过两个通用过程维度指导大语言模型推理:i) 元认知知识,无需手工设计的实例特定评分标准即可识别任务相关信息;ii) 元认知调控,规划并调整推理过程,从而提供超越最终答案结果的奖励指导。MaR将模型生成过程构建为显式的元认知组件,并通过任务知识覆盖率、调控保真度和最终答案正确性上的轨迹级奖励对其进行优化。通过这种方式,MaR将奖励反馈扩展到推理轨迹,同时将奖励信号建立在通用元认知维度上。在22个基准上的实验表明,MaR持续提升模型性能,相比基础模型最高提升7.7%,相比原始DAPO最高提升11.0%。值得注意的是,Qwen3.5-9B + MaR缩小了与前沿模型的差距,在整体平均上超越GPT-OSS-120B,并在多个单独基准上优于更强的模型。过程级分析进一步显示推理过程质量有显著提升。MaR也能泛化到域外数据集,训练后的MaR模型在平均性能上优于相应的基础模型。
查看缓存全文
缓存时间: 2026/05/25 09:01
# 元认知作为奖励:通过知识与调节信号强化LLM推理能力 来源:https://arxiv.org/abs/2605.23384 查看PDF(https://arxiv.org/pdf/2605.23384) > **摘要**:最近的强化学习方法显著提升了大型语言模型(LLM)的推理能力。现有的奖励设计主要遵循两种范式:(1) 基于可验证奖励的强化学习(RLVR)从可执行检查或真实答案中得出结果信号,但对中间推理行为的指导有限。(2) 基于评分标准的奖励(RaR)超越了对最终答案的检查,通过自然语言评分标准来评估推理质量和任务合规性,但通常需要针对具体实例的评分标准,且设计工作量大。为解决这些问题,我们提出了基于元认知的奖励(MaR),这是一种受元认知启发的强化学习框架,通过两个通用过程维度引导LLM推理:i) 元认知知识,无需手工设计的实例特定评分标准即可识别任务相关信息;ii) 元认知调节,规划并调整推理过程,以提供超出最终答案结果的奖励指导。MaR将模型展开过程塑造成显式的元认知组件,并通过基于任务知识覆盖度、调节保真度和最终答案正确性的轨迹级奖励对其进行优化。通过这种方式,MaR将奖励反馈扩展到推理轨迹,同时将奖励信号建立在通用的元认知维度上。在22个基准测试上的实验表明,MaR持续提升模型性能,相比基础模型提升高达7.7%,相比原始DAPO提升高达11.0%。值得注意的是,Qwen3.5-9B + MaR缩小了与前沿模型的差距,在整体平均分上超越了GPT-OSS-120B,并在多个单项基准上超越了更强的模型。过程级分析进一步显示推理过程质量有显著提升。MaR还能泛化到领域外数据集,经过MaR训练的模型在平均表现上优于其对应基础模型。 ## 提交历史 来自:Sirui Chen [查看邮件(https://arxiv.org/show-email/0f9c2a67/2605.23384)] **\[v1\]**2026年5月22日 星期五 08:54:37 UTC (981 KB)
相似文章
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
使用评分奖励(Rubric Rewards)纠正LLM数学推理中的奇迹步骤
本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。
相互推理让小型语言模型成为更强大的问题求解者
本文介绍了一种相互推理技术,通过自我反馈和奖励函数迭代优化候选解决方案,从而增强小型语言模型(LLMs)的问题求解能力。