解码大型推理模型中的批判机制

Hugging Face Daily Papers 2026/05/22 00:00 论文

摘要

本文研究大型推理模型如何在内部检测并纠正自身错误，识别出一个高度可解释的批判向量，该向量无需额外训练即可增强错误检测能力，并提升测试时扩展性能。

大型推理模型（LRMs）展现出回溯和自我验证机制，使其能够修正中间步骤并得出正确解决方案，从而在复杂逻辑基准测试中取得强劲性能。我们假设，只有当模型具有足够强的“批判”能力来检测自身错误时，这些行为才是有益的。本文系统研究了当前LRMs如何通过在其中间推理步骤中插入算术错误来从错误中恢复。值得注意的是，我们发现了一个奇特而重要的现象：尽管错误在整个思维链（CoT）中传播且没有任何口头修正，模型在思考过程结束后仍能得出正确的最终答案。这种恢复意味着存在一种内部机制帮助模型检测错误并触发自我修正，我们称之为隐藏的批判能力。基于特征空间分析，我们识别出一个高度可解释的批判向量来代表这种行为。跨多个模型规模和系列的广泛实验表明，使用该向量引导潜在表示可以提升模型的错误检测能力，并在无需额外训练成本的情况下增强测试时扩展性能。我们的发现为理解LRMs的批判行为提供了宝贵见解，为控制和改进其自我验证机制指明了一个有前景的方向。我们的代码可在以下网址获取：https://github.com/mail-research/lrm-critique-vectors。

查看原文

查看缓存全文

缓存时间: 2026/05/26 10:43

论文页面 - 解读大型推理模型中的批判机制

来源：https://huggingface.co/papers/2603.16331

摘要

大型推理模型展现出隐藏的批判能力，能够通过内部机制实现错误恢复，这些机制经由可解释的批判向量识别，可在无需额外训练的情况下提升错误检测能力。

大型推理模型（https://huggingface.co/papers?q=Large%20Reasoning%20Models）（LRMs）具备回溯和自我验证（https://huggingface.co/papers?q=self-verification）机制，使其能够修正中间步骤并得出正确解，从而在复杂逻辑基准上表现出色。我们假设，只有当模型具备足够强的“批判”能力来检测自身错误时，这种行为才是有益的。本文系统性地探究了当前LRM如何通过在其中间推理步骤中插入算术错误来从错误中恢复。值得注意的是，我们发现了一个奇特而重要的现象：尽管错误在整个思维链（https://huggingface.co/papers?q=chain-of-thought）（CoT）中传播且没有任何口头纠正，模型在思考过程结束后仍然得出正确的最终答案。这种恢复能力暗示存在一种内部机制帮助模型检测错误并触发自我纠正，我们称之为隐藏的批判能力（https://huggingface.co/papers?q=critique%20ability）。基于特征空间分析（https://huggingface.co/papers?q=feature%20space%20analysis），我们识别出一个高度可解释的批判向量（https://huggingface.co/papers?q=critique%20vector），用于表征这一行为。跨多种模型规模与系列的广泛实验表明，使用该向量引导潜在表示（https://huggingface.co/papers?q=latent%20representations）可提升模型的错误检测能力，并在零额外训练成本下增强测试时缩放（https://huggingface.co/papers?q=test-time%20scaling）的性能。我们的发现为理解LRM的批判行为提供了宝贵见解，指明了控制和改进其自我验证（https://huggingface.co/papers?q=self-verification）机制的有前景方向。我们的代码已开源：https://github.com/mail-research/lrm-critique-vectors。

查看 arXiv 页面（https://arxiv.org/abs/2603.16331）查看 PDF（https://arxiv.org/pdf/2603.16331）GitHub 0（https://github.com/mail-research/lrm-critique-vectors）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2603.16331）

引用本论文的模型 0

尚无模型关联本论文

在模型 README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。

引用本论文的数据集 0

尚无数据集关联本论文

在数据集 README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。

引用本论文的 Space 0

尚无 Space 关联本论文

在 Space README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。

包含本论文的收藏集 0

尚无收藏集包含本论文

将本论文添加至一个收藏集（https://huggingface.co/new-collection）即可从本页链接。

解码大型推理模型中的批判机制

论文页面 - 解读大型推理模型中的批判机制

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的收藏集 0

相似文章

人工理性的谜题：探究大型推理模型中的生成-评估差距

大型学习模型中增强且高效的推理

通过纠正少数决策令牌即可恢复推理能力

我们能理解大语言模型是如何推理的吗？

大型语言模型中的数学推理：基准、架构、评估与开放挑战

提交意见反馈