CORE:对比反思实现推理能力的快速提升

Hugging Face Daily Papers 论文

摘要

对比反思(CORE)是一种非参数算法,通过比较成功与不成功的推理轨迹,生成简洁、可解释的洞见,从而以比现有方法更少的样本和 rollout 次数,实现语言模型更快、更高效的自我改进。

语言模型可以利用可验证奖励来改进各种推理任务。然而,无论是参数化方法(如 RLVR)还是非参数化方法(如提示优化),通常都需要数百个训练样本和数千次模型 rollout,这在最佳情况下成本高昂,在最差情况下则难以实现。为了解决这一挑战,我们引入了对比反思(CORE),一种非参数化学习算法,通过比较过去的推理轨迹来生成洞见:即简短的自然语言描述,捕捉成功与不成功问题尝试之间的推理策略和约束差异。在四个推理任务上,我们证明 CORE 能比参数化(GRPO)和非参数化(GEPA、情节式 RAG 和 MemRL)方法实现更快的改进,同时使用更少的 rollout。在固定 rollout 预算下,即使只有五个训练样本,CORE 也能达到与每个基线相当或更大的性能提升。最后,我们强调 CORE 在上下文利用上比非参数化基线更高效,需要的提示 token 更少,同时将学到的知识存储为紧凑、可解释的自然语言洞见。因此,我们的结果表明,将成功与不成功推理轨迹之间的对比提炼为抽象且有意义的洞见,可以为模型自我改进提供一种比权重更新、提示优化或直接复用存储的推理轨迹更高效、更可解释的途径。
查看原文
查看缓存全文

缓存时间: 2026/06/08 19:17

论文页面 - CORE: 对比反思实现推理能力的快速提升

来源: https://huggingface.co/papers/2605.28742

摘要

对比反思 (CORE) 通过分析成功与不成功尝试之间的差异,生成简洁、可解释的见解,从而提升语言模型的推理能力。与传统的参数化和非参数化方法相比,这种方法能够实现更快、更高效的自我改进。

语言模型可以利用可验证奖励(https://huggingface.co/papers?q=verifiable%20rewards)在多种推理任务(https://huggingface.co/papers?q=reasoning%20tasks)上实现改进。然而,无论是参数化方法(如 RLVR)还是非参数化方法(如提示优化),通常都需要数百个训练样本(https://huggingface.co/papers?q=training%20samples)和数千次模型 rollout(https://huggingface.co/papers?q=model%20rollouts),这在最佳情况下成本高昂,在最坏情况下甚至难以实现。为了应对这一挑战,我们引入了对比反思(https://huggingface.co/papers?q=Contrastive%20Reflection)(CORE),这是一种非参数化学习算法,通过比较过去的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)来生成见解:即简短的、用自然语言描述的推理策略(https://huggingface.co/papers?q=reasoning%20strategies)和约束条件(https://huggingface.co/papers?q=constraints),这些见解捕捉了成功与不成功问题尝试之间的差异。在四项推理任务(https://huggingface.co/papers?q=reasoning%20tasks)上,我们证明了 CORE 能够比参数化方法(GRPO(https://huggingface.co/papers?q=GRPO))和非参数化方法(GEPA(https://huggingface.co/papers?q=GEPA)、情景式 RAG(https://huggingface.co/papers?q=episodic%20RAG)以及 MemRL(https://huggingface.co/papers?q=MemRL))实现更快速的改进,同时使用的 rollout 次数更少。在固定 rollout 预算(https://huggingface.co/papers?q=rollout%20budgets)下,仅使用少至五个训练样本(https://huggingface.co/papers?q=training%20samples),我们进一步展示了 CORE 能达到与各基线相当甚至更大的性能提升。最后,我们还强调了 CORE 在上下文效率方面显著优于非参数化基线,所需提示词 token(https://huggingface.co/papers?q=prompt%20tokens)更少,同时将学到的知识以紧凑、可解释的自然语言见解形式存储。因此,我们的结果表明,将成功与不成功的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)之间的对比提炼为抽象而有用的见解,能够为模型自我改进(https://huggingface.co/papers?q=self-improvement)提供一条比权重更新、提示优化或直接复用存储的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)更高效且更具可解释性的路径。

查看 arXiv 页面(https://arxiv.org/abs/2605.28742)
查看 PDF(https://arxiv.org/pdf/2605.28742)
项目页面(https://linasnasvytis.com/core-reasoning/)
GitHub(https://github.com/LinasNas/core-reasoning)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28742)

在你的智能体中获取这篇论文:

hf papers read 2605\.28742

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。

引用该论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。

引用该论文的 Spaces 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。

包含该论文的合集 0

没有合集包含此论文

将本论文添加到一个合集(https://huggingface.co/new-collection)即可从本页面关联。

相似文章

CEPO:基于对比证据策略优化的RLVR自我蒸馏

Hugging Face Daily Papers

CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。