CORE:对比反思实现推理能力的快速提升
摘要
对比反思(CORE)是一种非参数算法,通过比较成功与不成功的推理轨迹,生成简洁、可解释的洞见,从而以比现有方法更少的样本和 rollout 次数,实现语言模型更快、更高效的自我改进。
查看缓存全文
缓存时间: 2026/06/08 19:17
论文页面 - CORE: 对比反思实现推理能力的快速提升
来源: https://huggingface.co/papers/2605.28742
摘要
对比反思 (CORE) 通过分析成功与不成功尝试之间的差异,生成简洁、可解释的见解,从而提升语言模型的推理能力。与传统的参数化和非参数化方法相比,这种方法能够实现更快、更高效的自我改进。
语言模型可以利用可验证奖励(https://huggingface.co/papers?q=verifiable%20rewards)在多种推理任务(https://huggingface.co/papers?q=reasoning%20tasks)上实现改进。然而,无论是参数化方法(如 RLVR)还是非参数化方法(如提示优化),通常都需要数百个训练样本(https://huggingface.co/papers?q=training%20samples)和数千次模型 rollout(https://huggingface.co/papers?q=model%20rollouts),这在最佳情况下成本高昂,在最坏情况下甚至难以实现。为了应对这一挑战,我们引入了对比反思(https://huggingface.co/papers?q=Contrastive%20Reflection)(CORE),这是一种非参数化学习算法,通过比较过去的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)来生成见解:即简短的、用自然语言描述的推理策略(https://huggingface.co/papers?q=reasoning%20strategies)和约束条件(https://huggingface.co/papers?q=constraints),这些见解捕捉了成功与不成功问题尝试之间的差异。在四项推理任务(https://huggingface.co/papers?q=reasoning%20tasks)上,我们证明了 CORE 能够比参数化方法(GRPO(https://huggingface.co/papers?q=GRPO))和非参数化方法(GEPA(https://huggingface.co/papers?q=GEPA)、情景式 RAG(https://huggingface.co/papers?q=episodic%20RAG)以及 MemRL(https://huggingface.co/papers?q=MemRL))实现更快速的改进,同时使用的 rollout 次数更少。在固定 rollout 预算(https://huggingface.co/papers?q=rollout%20budgets)下,仅使用少至五个训练样本(https://huggingface.co/papers?q=training%20samples),我们进一步展示了 CORE 能达到与各基线相当甚至更大的性能提升。最后,我们还强调了 CORE 在上下文效率方面显著优于非参数化基线,所需提示词 token(https://huggingface.co/papers?q=prompt%20tokens)更少,同时将学到的知识以紧凑、可解释的自然语言见解形式存储。因此,我们的结果表明,将成功与不成功的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)之间的对比提炼为抽象而有用的见解,能够为模型自我改进(https://huggingface.co/papers?q=self-improvement)提供一条比权重更新、提示优化或直接复用存储的推理轨迹(https://huggingface.co/papers?q=reasoning%20traces)更高效且更具可解释性的路径。
查看 arXiv 页面(https://arxiv.org/abs/2605.28742)
查看 PDF(https://arxiv.org/pdf/2605.28742)
项目页面(https://linasnasvytis.com/core-reasoning/)
GitHub(https://github.com/LinasNas/core-reasoning)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28742)
在你的智能体中获取这篇论文:
hf papers read 2605\.28742
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。
引用该论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。
引用该论文的 Spaces 0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。
包含该论文的合集 0
没有合集包含此论文
将本论文添加到一个合集(https://huggingface.co/new-collection)即可从本页面关联。
相似文章
通过协作逐步多教师解码蒸馏长链思维推理
CoRD是一个协作多教师解码框架,通过预测困惑度评分和束搜索合成推理轨迹,实现了大型推理模型的高效蒸馏,具有高质量输出和泛化性能。
CEPO:基于对比证据策略优化的RLVR自我蒸馏
CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
ReflectMT:将反思内化为高效高质量机器翻译
ReflectMT提出两阶段强化学习方法,让大推理模型把反思能力内化,实现单次高质量翻译,比DeepSeek-R1等多步推理模型少用94%的token。
CORE:面向冲突的通用多模态篡改检测推理
提出了CORE框架,赋予多模态大语言模型显式的冲突捕获能力,以实现可泛化的篡改检测,能够通过少量或零样本适应未见过的篡改类型。