CopT: 用于通用与智能体推理的连续空间对比在线思考

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

CopT为大型语言模型引入了一种对比性在线思考框架，首先生成草稿答案，然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上，准确率最高提升23%，token使用量最多降低57%。

链式思考（Chain-of-thought, CoT）是激发大型语言模型（LLMs）推理能力的标准方法。然而，常见的CoT范式将思考视为回答的前提，这可能会延迟获得合理答案的时间，并且即使模型在扩展思考之前就能识别出答案，也会产生不必要的token开销，这种行为被称为表演式推理。在本文中，我们引入了CopT，这是一种重新设计的推理流程，颠倒了思考与回答的常规顺序。CopT并非先思考再回答，而是首先生成一个草稿答案，然后基于该草稿答案调用后续的在线思考进行反思和修正。为了评估草稿答案是否可信，CopT将连续嵌入重新定义为推理时的对比验证器。具体来说，它对比了模型在离散token输入和连续嵌入输入下对相同生成token的支持程度，从而得到一个序列级的反向KL估计量，用于衡量答案的可靠性。我们的分析表明，在某些假设下，该估计量的期望值等于未解决潜状态与输出答案token之间的互信息，这解释了为什么它捕获的是与答案相关的不确定性，而非潜状态中的任意不确定性。当答案被认为不够可靠时，CopT会执行进一步的在线思考，其中第二个KL估计量动态控制草稿答案的可见性，从而保留有用的部分信息，同时降低被不可靠内容误导的风险。在数学、代码和智能体推理任务中，CopT在无需额外训练的情况下，将峰值准确率最高提升了23%，并在达到相当或更高准确率的同时将token使用量最多降低了57%。代码开源在 https://github.com/sdc17/CopT。

查看原文

查看缓存全文

缓存时间: 2026/05/20 10:37

论文页面 - CopT：面向通用与智能体推理的连续空间对比策略内思考

来源：https://huggingface.co/papers/2605.20075

摘要

CopT 提出了一种新颖的大语言模型推理框架，该框架首先生成草稿答案，然后通过对比验证与动态思考来提高准确性，同时减少 token 消耗。

思维链（Chain-of-thought，CoT）是从大语言模型中激发推理能力的标准方法。然而，常见的 CoT 范式将思考视为回答的前提，这可能会延迟获取合理答案的时间，并且即便模型在扩展思考之前就能识别出答案，也会产生不必要的 token 成本，这种行为被称为表演式推理。在本文中，我们介绍了 CopT，这是一种重构后的推理管道，它颠倒了思考与回答的通常顺序。CopT 并非先思考再回答，而是首先生成一个草稿答案，然后基于其自身的草稿答案调用后续的策略内思考进行反思与纠正。为了评估草稿答案是否可信，CopT 将连续嵌入重新定义为推理时的对比验证器。具体来说，它对比模型在离散 token 输入和连续嵌入输入下对相同生成 token 的支持程度，从而得到一个用于衡量答案可靠性的序列级反向 KL 估计器。我们的分析表明，在特定假设下，该估计值的期望等于未解析潜在状态与输出答案 token 之间的互信息，这解释了为何它捕捉的是与答案相关的不确定性，而非潜在状态中的任意不确定性。当答案被认为不够可靠时，CopT 会执行进一步的策略内思考，其中第二个 KL 估计器动态控制草稿答案的可见性，在保留有用的部分信息的同时，降低被不可靠内容误导的风险。在数学、编码和智能体推理任务中，CopT 将峰值准确率提升了高达 23%，在达到相当或更高准确率的同时将 token 使用量减少了高达 57%，且无需任何额外训练。代码可在 https://github.com/sdc17/CopT 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20075)查看 PDF (https://arxiv.org/pdf/2605.20075)项目页面 (https://copt-web.github.io/)GitHub2 (https://github.com/sdc17/CopT)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20075)

在您的智能体中获取此论文：

hf papers read 2605.20075

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20075 即可从本页面链接。

引用此论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20075 即可从本页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20075 即可从本页面链接。

包含此论文的收藏0

暂无收藏包含此论文

将论文添加到收藏 (https://huggingface.co/new-collection) 即可从本页面链接。

CopT: 用于通用与智能体推理的连续空间对比在线思考

论文页面 - CopT：面向通用与智能体推理的连续空间对比策略内思考

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

面向多语言推理的跨语言在线策略自蒸馏

面向大型音频语言模型的连续音频思考

基于代理上下文的链式思维微调长上下文推理

用于离散策略优化的引导对比Token信用分配

置信度感知对齐让推理型大语言模型更加可靠

提交意见反馈