人工理性的谜题：探究大型推理模型中的生成-评估差距

Hugging Face Daily Papers 2026/05/31 00:00 论文

摘要

本文研究了大型推理模型（LRMs）中的生成-评估差距，发现尽管它们能近乎完美地生成解决方案，但由于答案确认偏差，它们无法稳健地评估推理过程。

对人类推理的研究表明，人们通常更擅长评估推理，而非从头生成推理。相比之下，大型推理模型（LRMs）经过训练，擅长生成长链推理以解决复杂问题。那么，LRMs在评估推理方面表现如何？我们使用有效答案-无效推理（VAIR）数据集对此进行了研究：该数据集包含存在微小推理缺陷但答案正确的数学问题及解答，旨在将推理评估与推理生成混淆因素分离。我们发现，人类在评分此类问题时仅比解答问题差6%，而LRMs则存在显著的生成-评估差距：前沿模型在评估VAIR解决方案时得分低至48%，尽管它们能近乎完美地生成解决方案。为何存在这一谜题？通过思维链（CoT）分析，我们发现了答案确认偏差的证据：LRMs常常先生成答案，然后检查正确答案，而非仔细验证每一步，甚至在注意到异常推理时也会编造合理化解。线性探针进一步证实了这一点，显示虽然LRM激活编码了有效推理的某种表征，但未能稳健地将VAIR方案表征为无效。对最终答案表征的因果修补会导致LRM的判断和激活发生翻转，表明答案有效性是模型确认偏差的原因。这些发现指出了主流推理训练方法的一个显著局限性：这些方法激励LRMs生成并确认指向正确答案的推理，但未能使其稳健地评估底层推理过程。

查看原文

查看缓存全文

缓存时间: 2026/06/15 16:59

论文页面 - 人工智能推理之谜：探究大型推理模型中的产生-评估差距

来源：https://huggingface.co/papers/2606.01462

摘要

大型推理模型在推理的产生与评估能力之间存在显著差距，模型表现出答案确认偏差，阻碍了准确的推理评估。

对人类推理的研究表明，人们通常更擅长评估推理，而非从头开始产生推理。相比之下，大型推理模型（LRMs）经过训练，擅长通过产生长链推理来解决复杂问题。那么，LRMs在评估推理方面表现如何？我们通过有效答案-无效推理（VAIR）数据集对此进行了探究：该数据集包含数学问题及其解法，解法中存在微不足道的推理缺陷但答案有效，旨在将推理评估从推理产生的混淆因素中分离出来。与人类不同（我们发现人类在批改此类问题时的表现仅比解决它们差6%），我们发现LRMs存在巨大的产生-评估差距：前沿模型在评估VAIR解法时的得分低至48%，尽管在产生解法方面近乎完美。这种谜团背后的原因是什么？通过思维链（CoT）分析，我们发现了答案确认偏差的证据：LRMs常常先产生答案，然后检查正确答案，而不是仔细验证每一步，即使注意到异常推理也会编造合理化解释。线性探针进一步证实了这一点，显示虽然LRM激活编码了一定程度的有效推理表示，但它们无法稳健地将VAIR解法表示为无效。对最终答案表示进行因果修补会导致LRM的判决和激活发生翻转，证明答案有效性是模型确认偏差的根源。这些发现揭示了主流推理训练方法的一个突出局限：这些方法激励LRMs产生并确认通向正确答案的推理，却未能使其稳健地评估潜在的理由。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01462)查看 PDF (https://arxiv.org/pdf/2606.01462)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01462)

在你的智能体中获取此论文：

hf papers read 2606\.01462

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01462 即可从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。

人工理性的谜题：探究大型推理模型中的生成-评估差距

论文页面 - 人工智能推理之谜：探究大型推理模型中的产生-评估差距

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

解码大型推理模型中的批判机制

大型语言模型中的数学推理：基准、架构、评估与开放挑战

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

通过纠正少数决策令牌即可恢复推理能力

大型学习模型中增强且高效的推理

提交意见反馈