CopT: 用于通用与智能体推理的连续空间对比在线思考

Hugging Face Daily Papers 论文

摘要

CopT为大型语言模型引入了一种对比性在线思考框架,首先生成草稿答案,然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上,准确率最高提升23%,token使用量最多降低57%。

链式思考(Chain-of-thought, CoT)是激发大型语言模型(LLMs)推理能力的标准方法。然而,常见的CoT范式将思考视为回答的前提,这可能会延迟获得合理答案的时间,并且即使模型在扩展思考之前就能识别出答案,也会产生不必要的token开销,这种行为被称为表演式推理。在本文中,我们引入了CopT,这是一种重新设计的推理流程,颠倒了思考与回答的常规顺序。CopT并非先思考再回答,而是首先生成一个草稿答案,然后基于该草稿答案调用后续的在线思考进行反思和修正。为了评估草稿答案是否可信,CopT将连续嵌入重新定义为推理时的对比验证器。具体来说,它对比了模型在离散token输入和连续嵌入输入下对相同生成token的支持程度,从而得到一个序列级的反向KL估计量,用于衡量答案的可靠性。我们的分析表明,在某些假设下,该估计量的期望值等于未解决潜状态与输出答案token之间的互信息,这解释了为什么它捕获的是与答案相关的不确定性,而非潜状态中的任意不确定性。当答案被认为不够可靠时,CopT会执行进一步的在线思考,其中第二个KL估计量动态控制草稿答案的可见性,从而保留有用的部分信息,同时降低被不可靠内容误导的风险。在数学、代码和智能体推理任务中,CopT在无需额外训练的情况下,将峰值准确率最高提升了23%,并在达到相当或更高准确率的同时将token使用量最多降低了57%。代码开源在 https://github.com/sdc17/CopT。
查看原文
查看缓存全文

缓存时间: 2026/05/20 10:37

论文页面 - CopT:面向通用与智能体推理的连续空间对比策略内思考

来源:https://huggingface.co/papers/2605.20075

摘要

CopT 提出了一种新颖的大语言模型推理框架,该框架首先生成草稿答案,然后通过对比验证与动态思考来提高准确性,同时减少 token 消耗。

思维链(Chain-of-thought,CoT)是从大语言模型中激发推理能力的标准方法。然而,常见的 CoT 范式将思考视为回答的前提,这可能会延迟获取合理答案的时间,并且即便模型在扩展思考之前就能识别出答案,也会产生不必要的 token 成本,这种行为被称为表演式推理。在本文中,我们介绍了 CopT,这是一种重构后的推理管道,它颠倒了思考与回答的通常顺序。CopT 并非先思考再回答,而是首先生成一个草稿答案,然后基于其自身的草稿答案调用后续的策略内思考进行反思与纠正。为了评估草稿答案是否可信,CopT 将连续嵌入重新定义为推理时的对比验证器。具体来说,它对比模型在离散 token 输入和连续嵌入输入下对相同生成 token 的支持程度,从而得到一个用于衡量答案可靠性的序列级反向 KL 估计器。我们的分析表明,在特定假设下,该估计值的期望等于未解析潜在状态与输出答案 token 之间的互信息,这解释了为何它捕捉的是与答案相关的不确定性,而非潜在状态中的任意不确定性。当答案被认为不够可靠时,CopT 会执行进一步的策略内思考,其中第二个 KL 估计器动态控制草稿答案的可见性,在保留有用的部分信息的同时,降低被不可靠内容误导的风险。在数学、编码和智能体推理任务中,CopT 将峰值准确率提升了高达 23%,在达到相当或更高准确率的同时将 token 使用量减少了高达 57%,且无需任何额外训练。代码可在 https://github.com/sdc17/CopT 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20075)查看 PDF (https://arxiv.org/pdf/2605.20075)项目页面 (https://copt-web.github.io/)GitHub2 (https://github.com/sdc17/CopT)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20075)

在您的智能体中获取此论文:

hf papers read 2605.20075

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20075 即可从本页面链接。

引用此论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20075 即可从本页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20075 即可从本页面链接。

包含此论文的收藏0

暂无收藏包含此论文

将论文添加到收藏 (https://huggingface.co/new-collection) 即可从本页面链接。

相似文章

面向多语言推理的跨语言在线策略自蒸馏

Hugging Face Daily Papers

本文提出了跨语言在线策略自蒸馏(COPSD)方法,该方法通过共享的学生-教师架构,将高资源语言的推理能力迁移到低资源语言中。在17种非洲语言上的实验表明,该方法的数学推理能力和答案格式遵循度均得到显著提升,性能优于组相对策略优化(GRPO)。

面向大型音频语言模型的连续音频思考

arXiv cs.AI

该论文引入了连续音频思考(CoAT)框架,为大型音频语言模型配备了一个连续的潜在工作空间,用于在生成文本响应之前组织声学信息,从而在音频推理、理解和转录任务中提升性能,且不增加额外的解码成本。

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers

本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI

本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。