通过前缀一致性实现可靠的思维链

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文介绍了“前缀一致性”这一方法，它根据思维链推理中痕迹再生成时的答案重现率对候选响应进行加权。该方法在各种推理模型和基准测试中，以显著少于标准多数投票的令牌数实现了高准确率。

大型语言模型通常通过采样多个思维链（CoT）轨迹并使用多数投票（MV）进行聚合来提高推理任务的准确率，这种测试时技术称为自一致性。当我们截断 CoT 轨迹的一部分并重新生成其余部分时，我们观察到具有正确答案的轨迹比具有错误答案的轨迹更频繁地重现其原始答案。我们将这种差异用作可靠性信号——前缀一致性，根据每个候选答案在重新生成中重现的频率对其进行加权。它无需访问令牌对数概率或自我评分提示。在五个推理模型和四个数学及科学基准测试中，前缀一致性在大多数设置下是最佳正确性预测器，通过它重新加权投票可以在多达 21 倍更少的令牌数（中位数为 4.6 倍）下达到标准多数投票的峰值准确率。我们的代码可在 https://github.com/naoto-iwase/prefix-consistency 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/13 12:14

论文页面 - 通过前缀一致性实现可靠的思维链

来源：https://huggingface.co/papers/2605.07654

摘要

前缀一致性利用在轨迹重新生成下的答案复现率来为候选响应加权，从而以远低于标准多数投票（Majority Voting）的 token 消耗量实现高精度。

大型语言模型通常通过多次采样思维链（Chain-of-Thought, CoT）轨迹并使用多数投票（MV）进行聚合，来在推理任务上提高准确率，这是一种称为自一致性（Self-Consistency）的测试时技术。当我们截断部分 CoT 并重新生成剩余部分时，我们观察到带有正确答案的轨迹比带有错误答案的轨迹更频繁地复现其原始答案。我们将这种差异作为一种可靠性信号——前缀一致性（Prefix Consistency），根据每个候选答案在重新生成中再次出现的频率为其加权。该方法无需访问 token 对数概率或自我评估提示。在五个推理模型和四个数学及科学基准测试中，前缀一致性在大多数设置下是最好的正确性预测指标，通过它重新加权投票，可以在多达 21 倍（中位数 4.6 倍）更少的 token 消耗下达到标准 MV 的平台期准确率。我们的代码可在 https://github.com/naoto-iwase/prefix-consistency 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07654) 查看 PDF (https://arxiv.org/pdf/2605.07654) 项目页面 (https://naoto-iwase.github.io/prefix-consistency-page) GitHub (https://github.com/naoto-iwase/prefix-consistency) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07654)

在您的 agent 中获取此论文：

hf papers read 2605\.07654

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07654 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07654 即可从此页面链接它。

引用此论文的空间 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07654 即可从此页面链接它。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接它。

通过前缀一致性实现可靠的思维链

论文页面 - 通过前缀一致性实现可靠的思维链

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的收藏集 0

相似文章

超越准确率：在思维链推理中测量偏差识别以进行负责任的人工智能评估

链条稳固，答案翻转：对抗压力下推理模型中的轨迹-答案分离

ThoughtFold: 通过内省偏好学习折叠推理链

ACIL: 用于上下文学习的自动Chain-of-Thought

链式思考在探针时刻为何有效？局部共现而非全局推导

提交意见反馈