解码大型推理模型中的批判机制
摘要
本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。
查看缓存全文
缓存时间: 2026/05/26 10:43
论文页面 - 解读大型推理模型中的批判机制
来源:https://huggingface.co/papers/2603.16331
摘要
大型推理模型展现出隐藏的批判能力,能够通过内部机制实现错误恢复,这些机制经由可解释的批判向量识别,可在无需额外训练的情况下提升错误检测能力。
大型推理模型(https://huggingface.co/papers?q=Large%20Reasoning%20Models)(LRMs)具备回溯和自我验证(https://huggingface.co/papers?q=self-verification)机制,使其能够修正中间步骤并得出正确解,从而在复杂逻辑基准上表现出色。我们假设,只有当模型具备足够强的“批判”能力来检测自身错误时,这种行为才是有益的。本文系统性地探究了当前LRM如何通过在其中间推理步骤中插入算术错误来从错误中恢复。值得注意的是,我们发现了一个奇特而重要的现象:尽管错误在整个思维链(https://huggingface.co/papers?q=chain-of-thought)(CoT)中传播且没有任何口头纠正,模型在思考过程结束后仍然得出正确的最终答案。这种恢复能力暗示存在一种内部机制帮助模型检测错误并触发自我纠正,我们称之为隐藏的批判能力(https://huggingface.co/papers?q=critique%20ability)。基于特征空间分析(https://huggingface.co/papers?q=feature%20space%20analysis),我们识别出一个高度可解释的批判向量(https://huggingface.co/papers?q=critique%20vector),用于表征这一行为。跨多种模型规模与系列的广泛实验表明,使用该向量引导潜在表示(https://huggingface.co/papers?q=latent%20representations)可提升模型的错误检测能力,并在零额外训练成本下增强测试时缩放(https://huggingface.co/papers?q=test-time%20scaling)的性能。我们的发现为理解LRM的批判行为提供了宝贵见解,指明了控制和改进其自我验证(https://huggingface.co/papers?q=self-verification)机制的有前景方向。我们的代码已开源:https://github.com/mail-research/lrm-critique-vectors。
查看 arXiv 页面(https://arxiv.org/abs/2603.16331)查看 PDF(https://arxiv.org/pdf/2603.16331)GitHub 0(https://github.com/mail-research/lrm-critique-vectors)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2603.16331)
引用本论文的模型 0
尚无模型关联本论文
在模型 README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。
引用本论文的数据集 0
尚无数据集关联本论文
在数据集 README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。
引用本论文的 Space 0
尚无 Space 关联本论文
在 Space README.md 中引用 arxiv.org/abs/2603.16331 即可从本页链接。
包含本论文的收藏集 0
尚无收藏集包含本论文
将本论文添加至一个收藏集(https://huggingface.co/new-collection)即可从本页链接。
相似文章
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。
通过纠正少数决策令牌即可恢复推理能力
本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
风险链条:大型推理模型中的安全失效及通过自适应多原则引导进行缓解
本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。
大规模推理模型(尚)不是多语言潜在推理器
本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。