CORE：对比反思实现推理能力的快速提升

Hugging Face Daily Papers 2026/05/27 00:00 论文

reasoning contrastive-reflection language-models self-improvement non-parametric efficiency interpretability

摘要

对比反思（CORE）是一种非参数算法，通过比较成功与不成功的推理轨迹，生成简洁、可解释的洞见，从而以比现有方法更少的样本和 rollout 次数，实现语言模型更快、更高效的自我改进。

语言模型可以利用可验证奖励来改进各种推理任务。然而，无论是参数化方法（如 RLVR）还是非参数化方法（如提示优化），通常都需要数百个训练样本和数千次模型 rollout，这在最佳情况下成本高昂，在最差情况下则难以实现。为了解决这一挑战，我们引入了对比反思（CORE），一种非参数化学习算法，通过比较过去的推理轨迹来生成洞见：即简短的自然语言描述，捕捉成功与不成功问题尝试之间的推理策略和约束差异。在四个推理任务上，我们证明 CORE 能比参数化（GRPO）和非参数化（GEPA、情节式 RAG 和 MemRL）方法实现更快的改进，同时使用更少的 rollout。在固定 rollout 预算下，即使只有五个训练样本，CORE 也能达到与每个基线相当或更大的性能提升。最后，我们强调 CORE 在上下文利用上比非参数化基线更高效，需要的提示 token 更少，同时将学到的知识存储为紧凑、可解释的自然语言洞见。因此，我们的结果表明，将成功与不成功推理轨迹之间的对比提炼为抽象且有意义的洞见，可以为模型自我改进提供一种比权重更新、提示优化或直接复用存储的推理轨迹更高效、更可解释的途径。

查看原文

查看缓存全文

缓存时间: 2026/06/08 19:17

论文页面 - CORE: 对比反思实现推理能力的快速提升

来源: https://huggingface.co/papers/2605.28742

摘要

对比反思 (CORE) 通过分析成功与不成功尝试之间的差异，生成简洁、可解释的见解，从而提升语言模型的推理能力。与传统的参数化和非参数化方法相比，这种方法能够实现更快、更高效的自我改进。

语言模型可以利用可验证奖励（https://huggingface.co/papers?q=verifiable%20rewards）在多种推理任务（https://huggingface.co/papers?q=reasoning%20tasks）上实现改进。然而，无论是参数化方法（如 RLVR）还是非参数化方法（如提示优化），通常都需要数百个训练样本（https://huggingface.co/papers?q=training%20samples）和数千次模型 rollout（https://huggingface.co/papers?q=model%20rollouts），这在最佳情况下成本高昂，在最坏情况下甚至难以实现。为了应对这一挑战，我们引入了对比反思（https://huggingface.co/papers?q=Contrastive%20Reflection）(CORE)，这是一种非参数化学习算法，通过比较过去的推理轨迹（https://huggingface.co/papers?q=reasoning%20traces）来生成见解：即简短的、用自然语言描述的推理策略（https://huggingface.co/papers?q=reasoning%20strategies）和约束条件（https://huggingface.co/papers?q=constraints），这些见解捕捉了成功与不成功问题尝试之间的差异。在四项推理任务（https://huggingface.co/papers?q=reasoning%20tasks）上，我们证明了 CORE 能够比参数化方法（GRPO（https://huggingface.co/papers?q=GRPO））和非参数化方法（GEPA（https://huggingface.co/papers?q=GEPA）、情景式 RAG（https://huggingface.co/papers?q=episodic%20RAG）以及 MemRL（https://huggingface.co/papers?q=MemRL））实现更快速的改进，同时使用的 rollout 次数更少。在固定 rollout 预算（https://huggingface.co/papers?q=rollout%20budgets）下，仅使用少至五个训练样本（https://huggingface.co/papers?q=training%20samples），我们进一步展示了 CORE 能达到与各基线相当甚至更大的性能提升。最后，我们还强调了 CORE 在上下文效率方面显著优于非参数化基线，所需提示词 token（https://huggingface.co/papers?q=prompt%20tokens）更少，同时将学到的知识以紧凑、可解释的自然语言见解形式存储。因此，我们的结果表明，将成功与不成功的推理轨迹（https://huggingface.co/papers?q=reasoning%20traces）之间的对比提炼为抽象而有用的见解，能够为模型自我改进（https://huggingface.co/papers?q=self-improvement）提供一条比权重更新、提示优化或直接复用存储的推理轨迹（https://huggingface.co/papers?q=reasoning%20traces）更高效且更具可解释性的路径。

查看 arXiv 页面（https://arxiv.org/abs/2605.28742）
查看 PDF（https://arxiv.org/pdf/2605.28742）
项目页面（https://linasnasvytis.com/core-reasoning/）
GitHub（https://github.com/LinasNas/core-reasoning）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.28742）

在你的智能体中获取这篇论文：

hf papers read 2605\.28742

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。

引用该论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。

引用该论文的 Spaces 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.28742 即可从本页面关联。

包含该论文的合集 0

没有合集包含此论文

将本论文添加到一个合集（https://huggingface.co/new-collection）即可从本页面关联。

CORE：对比反思实现推理能力的快速提升

论文页面 - CORE: 对比反思实现推理能力的快速提升

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

通过协作逐步多教师解码蒸馏长链思维推理

CEPO：基于对比证据策略优化的RLVR自我蒸馏

基于代理上下文的链式思维微调长上下文推理

ReflectMT：将反思内化为高效高质量机器翻译

CORE：面向冲突的通用多模态篡改检测推理

提交意见反馈