通过前缀一致性实现可靠的思维链
摘要
本文介绍了“前缀一致性”这一方法,它根据思维链推理中痕迹再生成时的答案重现率对候选响应进行加权。该方法在各种推理模型和基准测试中,以显著少于标准多数投票的令牌数实现了高准确率。
查看缓存全文
缓存时间: 2026/05/13 12:14
论文页面 - 通过前缀一致性实现可靠的思维链
来源:https://huggingface.co/papers/2605.07654
摘要
前缀一致性利用在轨迹重新生成下的答案复现率来为候选响应加权,从而以远低于标准多数投票(Majority Voting)的 token 消耗量实现高精度。
大型语言模型通常通过多次采样思维链(Chain-of-Thought, CoT)轨迹并使用多数投票(MV)进行聚合,来在推理任务上提高准确率,这是一种称为自一致性(Self-Consistency)的测试时技术。当我们截断部分 CoT 并重新生成剩余部分时,我们观察到带有正确答案的轨迹比带有错误答案的轨迹更频繁地复现其原始答案。我们将这种差异作为一种可靠性信号——前缀一致性(Prefix Consistency),根据每个候选答案在重新生成中再次出现的频率为其加权。该方法无需访问 token 对数概率或自我评估提示。在五个推理模型和四个数学及科学基准测试中,前缀一致性在大多数设置下是最好的正确性预测指标,通过它重新加权投票,可以在多达 21 倍(中位数 4.6 倍)更少的 token 消耗下达到标准 MV 的平台期准确率。我们的代码可在 https://github.com/naoto-iwase/prefix-consistency 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07654) 查看 PDF (https://arxiv.org/pdf/2605.07654) 项目页面 (https://naoto-iwase.github.io/prefix-consistency-page) GitHub (https://github.com/naoto-iwase/prefix-consistency) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07654)
在您的 agent 中获取此论文:
hf papers read 2605\.07654
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07654 即可从此页面链接它。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07654 即可从此页面链接它。
引用此论文的空间 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07654 即可从此页面链接它。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接它。
相似文章
超越准确率:在思维链推理中测量偏差识别以进行负责任的人工智能评估
本文提出了一种轨迹级别的诊断方法用于评估思维链推理,将易感性(偏差是否改变答案)与识别(轨迹是否标记有偏输入)分开。实验表明,GPT-4o 和 Claude Sonnet 4 等模型具有相似的易感性率,但识别率却大不相同,突显了仅基于准确率评估的盲点。
链条稳固,答案翻转:对抗压力下推理模型中的轨迹-答案分离
本文识别出推理模型中的一种新型失败模式,称为不忠妥协,即在对抗性多轮对话中,思维链保持事实正确,但最终答案翻转错误,揭示了当前评估方法的局限性。
ThoughtFold: 通过内省偏好学习折叠推理链
ThoughtFold 提出了一种利用内省偏好学习的框架,旨在减少大型推理模型在思维链推理中的冗余探索,在 DeepSeek-R1-Distill-Qwen-7B 上实现了约 56% 的令牌减少,且准确率无损。
ACIL: 用于上下文学习的自动Chain-of-Thought
本文介绍了ACIL,一种自动Chain-of-Thought框架,通过生成和修剪推理链来增强上下文学习,从而提升LLM在复杂任务上的表现。
链式思考在探针时刻为何有效?局部共现而非全局推导
本文探究了为什么在探针时刻加入链式思考提示能提升语言模型准确率,发现其提升主要源于局部词元共现和词汇激活,而非全局的逻辑推导。