人工理性的谜题:探究大型推理模型中的生成-评估差距

Hugging Face Daily Papers 论文

摘要

本文研究了大型推理模型(LRMs)中的生成-评估差距,发现尽管它们能近乎完美地生成解决方案,但由于答案确认偏差,它们无法稳健地评估推理过程。

对人类推理的研究表明,人们通常更擅长评估推理,而非从头生成推理。相比之下,大型推理模型(LRMs)经过训练,擅长生成长链推理以解决复杂问题。那么,LRMs在评估推理方面表现如何?我们使用有效答案-无效推理(VAIR)数据集对此进行了研究:该数据集包含存在微小推理缺陷但答案正确的数学问题及解答,旨在将推理评估与推理生成混淆因素分离。我们发现,人类在评分此类问题时仅比解答问题差6%,而LRMs则存在显著的生成-评估差距:前沿模型在评估VAIR解决方案时得分低至48%,尽管它们能近乎完美地生成解决方案。 为何存在这一谜题?通过思维链(CoT)分析,我们发现了答案确认偏差的证据:LRMs常常先生成答案,然后检查正确答案,而非仔细验证每一步,甚至在注意到异常推理时也会编造合理化解。线性探针进一步证实了这一点,显示虽然LRM激活编码了有效推理的某种表征,但未能稳健地将VAIR方案表征为无效。对最终答案表征的因果修补会导致LRM的判断和激活发生翻转,表明答案有效性是模型确认偏差的原因。这些发现指出了主流推理训练方法的一个显著局限性:这些方法激励LRMs生成并确认指向正确答案的推理,但未能使其稳健地评估底层推理过程。
查看原文
查看缓存全文

缓存时间: 2026/06/15 16:59

论文页面 - 人工智能推理之谜:探究大型推理模型中的产生-评估差距

来源:https://huggingface.co/papers/2606.01462

摘要

大型推理模型在推理的产生与评估能力之间存在显著差距,模型表现出答案确认偏差,阻碍了准确的推理评估。

对人类推理的研究表明,人们通常更擅长评估推理,而非从头开始产生推理。相比之下,大型推理模型(LRMs)经过训练,擅长通过产生长链推理来解决复杂问题。那么,LRMs在评估推理方面表现如何?我们通过有效答案-无效推理(VAIR)数据集对此进行了探究:该数据集包含数学问题及其解法,解法中存在微不足道的推理缺陷但答案有效,旨在将推理评估从推理产生的混淆因素中分离出来。与人类不同(我们发现人类在批改此类问题时的表现仅比解决它们差6%),我们发现LRMs存在巨大的产生-评估差距:前沿模型在评估VAIR解法时的得分低至48%,尽管在产生解法方面近乎完美。这种谜团背后的原因是什么?通过思维链(CoT)分析,我们发现了答案确认偏差的证据:LRMs常常先产生答案,然后检查正确答案,而不是仔细验证每一步,即使注意到异常推理也会编造合理化解释。线性探针进一步证实了这一点,显示虽然LRM激活编码了一定程度的有效推理表示,但它们无法稳健地将VAIR解法表示为无效。对最终答案表示进行因果修补会导致LRM的判决和激活发生翻转,证明答案有效性是模型确认偏差的根源。这些发现揭示了主流推理训练方法的一个突出局限:这些方法激励LRMs产生并确认通向正确答案的推理,却未能使其稳健地评估潜在的理由。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01462)查看 PDF (https://arxiv.org/pdf/2606.01462)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01462)

在你的智能体中获取此论文:

hf papers read 2606\.01462

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。

相似文章

解码大型推理模型中的批判机制

Hugging Face Daily Papers

本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。