解码大型推理模型中的批判机制

Hugging Face Daily Papers 论文

摘要

本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。

大型推理模型(LRMs)展现出回溯和自我验证机制,使其能够修正中间步骤并得出正确解决方案,从而在复杂逻辑基准测试中取得强劲性能。我们假设,只有当模型具有足够强的“批判”能力来检测自身错误时,这些行为才是有益的。本文系统研究了当前LRMs如何通过在其中间推理步骤中插入算术错误来从错误中恢复。值得注意的是,我们发现了一个奇特而重要的现象:尽管错误在整个思维链(CoT)中传播且没有任何口头修正,模型在思考过程结束后仍能得出正确的最终答案。这种恢复意味着存在一种内部机制帮助模型检测错误并触发自我修正,我们称之为隐藏的批判能力。基于特征空间分析,我们识别出一个高度可解释的批判向量来代表这种行为。跨多个模型规模和系列的广泛实验表明,使用该向量引导潜在表示可以提升模型的错误检测能力,并在无需额外训练成本的情况下增强测试时扩展性能。我们的发现为理解LRMs的批判行为提供了宝贵见解,为控制和改进其自我验证机制指明了一个有前景的方向。我们的代码可在以下网址获取:https://github.com/mail-research/lrm-critique-vectors。
查看原文
查看缓存全文

缓存时间: 2026/05/26 10:43

论文页面 - 解读大型推理模型中的批判机制

来源:https://huggingface.co/papers/2603.16331

摘要

大型推理模型展现出隐藏的批判能力,能够通过内部机制实现错误恢复,这些机制经由可解释的批判向量识别,可在无需额外训练的情况下提升错误检测能力。

大型推理模型(https://huggingface.co/papers?q=Large%20Reasoning%20Models)(LRMs)具备回溯和自我验证(https://huggingface.co/papers?q=self-verification)机制,使其能够修正中间步骤并得出正确解,从而在复杂逻辑基准上表现出色。我们假设,只有当模型具备足够强的“批判”能力来检测自身错误时,这种行为才是有益的。本文系统性地探究了当前LRM如何通过在其中间推理步骤中插入算术错误来从错误中恢复。值得注意的是,我们发现了一个奇特而重要的现象:尽管错误在整个思维链(https://huggingface.co/papers?q=chain-of-thought)(CoT)中传播且没有任何口头纠正,模型在思考过程结束后仍然得出正确的最终答案。这种恢复能力暗示存在一种内部机制帮助模型检测错误并触发自我纠正,我们称之为隐藏的批判能力(https://huggingface.co/papers?q=critique%20ability)。基于特征空间分析(https://huggingface.co/papers?q=feature%20space%20analysis),我们识别出一个高度可解释的批判向量(https://huggingface.co/papers?q=critique%20vector),用于表征这一行为。跨多种模型规模与系列的广泛实验表明,使用该向量引导潜在表示(https://huggingface.co/papers?q=latent%20representations)可提升模型的错误检测能力,并在零额外训练成本下增强测试时缩放(https://huggingface.co/papers?q=test-time%20scaling)的性能。我们的发现为理解LRM的批判行为提供了宝贵见解,指明了控制和改进其自我验证(https://huggingface.co/papers?q=self-verification)机制的有前景方向。我们的代码已开源:https://github.com/mail-research/lrm-critique-vectors。

查看 arXiv 页面(https://arxiv.org/abs/2603.16331)查看 PDF(https://arxiv.org/pdf/2603.16331)GitHub 0(https://github.com/mail-research/lrm-critique-vectors)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2603.16331)

引用本论文的模型 0

尚无模型关联本论文

在模型 README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。

引用本论文的数据集 0

尚无数据集关联本论文

在数据集 README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。

引用本论文的 Space 0

尚无 Space 关联本论文

在 Space README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。

包含本论文的收藏集 0

尚无收藏集包含本论文

将本论文添加至一个收藏集(https://huggingface.co/new-collection)即可从本页链接。

相似文章

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。

大规模推理模型(尚)不是多语言潜在推理器

arXiv cs.CL

本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。