人工理性的谜题:探究大型推理模型中的生成-评估差距
摘要
本文研究了大型推理模型(LRMs)中的生成-评估差距,发现尽管它们能近乎完美地生成解决方案,但由于答案确认偏差,它们无法稳健地评估推理过程。
查看缓存全文
缓存时间: 2026/06/15 16:59
论文页面 - 人工智能推理之谜:探究大型推理模型中的产生-评估差距
来源:https://huggingface.co/papers/2606.01462
摘要
大型推理模型在推理的产生与评估能力之间存在显著差距,模型表现出答案确认偏差,阻碍了准确的推理评估。
对人类推理的研究表明,人们通常更擅长评估推理,而非从头开始产生推理。相比之下,大型推理模型(LRMs)经过训练,擅长通过产生长链推理来解决复杂问题。那么,LRMs在评估推理方面表现如何?我们通过有效答案-无效推理(VAIR)数据集对此进行了探究:该数据集包含数学问题及其解法,解法中存在微不足道的推理缺陷但答案有效,旨在将推理评估从推理产生的混淆因素中分离出来。与人类不同(我们发现人类在批改此类问题时的表现仅比解决它们差6%),我们发现LRMs存在巨大的产生-评估差距:前沿模型在评估VAIR解法时的得分低至48%,尽管在产生解法方面近乎完美。这种谜团背后的原因是什么?通过思维链(CoT)分析,我们发现了答案确认偏差的证据:LRMs常常先产生答案,然后检查正确答案,而不是仔细验证每一步,即使注意到异常推理也会编造合理化解释。线性探针进一步证实了这一点,显示虽然LRM激活编码了一定程度的有效推理表示,但它们无法稳健地将VAIR解法表示为无效。对最终答案表示进行因果修补会导致LRM的判决和激活发生翻转,证明答案有效性是模型确认偏差的根源。这些发现揭示了主流推理训练方法的一个突出局限:这些方法激励LRMs产生并确认通向正确答案的推理,却未能使其稳健地评估潜在的理由。
查看 arXiv 页面 (https://arxiv.org/abs/2606.01462)查看 PDF (https://arxiv.org/pdf/2606.01462)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01462)
在你的智能体中获取此论文:
hf papers read 2606\.01462
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。
相似文章
解码大型推理模型中的批判机制
本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。
通过纠正少数决策令牌即可恢复推理能力
本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。