隐藏思维并非秘密:LLM中的推理痕迹暴露

arXiv cs.AI 论文

摘要

本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。

arXiv:2606.00642v1 公告类型:新 摘要:推理痕迹已成为改进和迁移大语言模型能力的有价值学习信号。特别是,详细痕迹有助于将推理行为从较强的教师模型蒸馏到较弱的学生模型。能力迁移的价值促使许多部署了推理模型的系统隐藏原始内部痕迹,最多只向用户暴露总结和答案。因此,我们提出疑问:这种接口级别的痕迹隐藏是否阻止用户通过提示获得有用的推理监督?我们通过推理暴露提示(REP)研究这一问题,REP是一种轻量级的上下文引导方法,使用阴影模型生成的演示,包装在辅助代码格式中,从受害者模型中引发用户可见的推理痕迹。在常见推理数据集、不同受害者模型以及不同学生模型蒸馏中,REP显著提高了暴露痕迹与REP条件化内部痕迹之间的相似性,同时保留了有用的推理信号。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:47

# 隐藏的想法并非秘密:大语言模型中的推理痕迹暴露

来源:https://arxiv.org/html/2606.00642

Yu-An Lu¹,Ci-Yang Tsai¹,Yu-Lin Tsai²,Raluca Ada Popa²,Chia-Mu Yu¹

¹国立阳明交通大学,²加州大学伯克利分校

{yuan.la14, atziluth.en10, chiamuyu}@nycu.edu.tw, {uriah_tsai, raluca}@eecs.berkeley.edu

###### 摘要

推理痕迹已成为改进和迁移大语言模型能力的一种宝贵学习信号形式。特别是,详细的痕迹有助于将推理行为从更强的教师模型中蒸馏到较弱的学生模型中。能力迁移的价值促使许多部署了推理模型的系统隐藏原始内部痕迹,最多仅向用户暴露摘要和答案。因此,我们提出疑问:这种界面级别的痕迹隐藏是否阻止了用户通过提示获得有用的推理监督?我们通过*推理暴露提示*(REP)研究这一问题,这是一种轻量级的上下文诱发方法,使用由影子模型生成的演示,并包裹在辅助性类代码格式中,以从受害者模型中引出用户可见的推理痕迹。在常见的推理数据集、不同的受害者模型以及不同的学生模型蒸馏设置下,REP显著提高了暴露痕迹与REP条件下的内部痕迹之间的相似性,同时保留了有用的推理信号。

## 1 引言

思维链提示已成为一种关键技术,通过中间推理提升大语言模型在算术、常识、符号和代码推理等多种任务上的性能(Wei et al., 2022 (https://arxiv.org/html/2606.00642#bib.bib1); Kojima et al., 2022 (https://arxiv.org/html/2606.00642#bib.bib2); Wang et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib3))。因此,推理痕迹以多种方式成为宝贵的产物。它们可以作为监督信号,通过理由和思维链蒸馏将推理行为迁移到较小的模型中(Magister et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib29); Li et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib30); Hsieh et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib31));为从更强模型进行模仿学习提供丰富的解释痕迹(Mukherjee et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib32); Guo et al., 2025 (https://arxiv.org/html/2606.00642#bib.bib33));为监督和步骤级验证提供中间对象(Lightman et al., 2024 (https://arxiv.org/html/2606.00642#bib.bib26));通过使模型行为更可检查来支持可解释性,同时引发关于生成的理由是否忠实于实际答案的问题(Turpin et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib5); Lanham et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib6); Paul et al., 2024 (https://arxiv.org/html/2606.00642#bib.bib7));并为在推理模型中检测异常行为提供潜在的安全监控信号(Baker et al., 2025 (https://arxiv.org/html/2606.00642#bib.bib27))。

同样的价值也使推理痕迹变得敏感。如果痕迹能够改进下游模型、支持验证并揭示行为信号,那么它们的暴露可能会使能力从前沿系统中被提取出来。Anthropic、Google和OpenAI最近的报告描述了对前沿模型的蒸馏或模型提取尝试,包括推理痕迹强制和超越思维链提取的管道(Anthropic, 2026c (https://arxiv.org/html/2606.00642#bib.bib34); Google Threat Intelligence Group, 2026 (https://arxiv.org/html/2606.00642#bib.bib35); OpenAI, 2026b (https://arxiv.org/html/2606.00642#bib.bib36))。独立的政策分析同样将基于API的蒸馏(包括答案和中间推理步骤)识别为训练学生模型的途径(Bearman, 2026 (https://arxiv.org/html/2606.00642#bib.bib37))。这些报告共同表明,当用户交互可以揭示有用的训练数据时,隐藏权重不足以提供保护。

作为回应,许多商业部署系统不再暴露原始推理痕迹。例如,OpenAI将隐藏的思维链作为监控对象而非用户可见内容进行讨论(OpenAI, 2024 (https://arxiv.org/html/2606.00642#bib.bib12));Gemini暴露的是思想摘要而非原始思想(Google, 2026b (https://arxiv.org/html/2606.00642#bib.bib20));而Claude的扩展思考则对逐步推理提供受控的透明度(Anthropic, 2026a (https://arxiv.org/html/2606.00642#bib.bib21))。这种受限痕迹设计的变化引出了一个基本问题:当原始内部推理被设计为隐藏时,用户提示能否诱导出与模型自身推理行为相对应的暴露痕迹?我们通过*推理暴露提示*(REP)来研究这个问题。其关键直觉是:当被直接询问时,模型可能会拒绝或无法揭示隐藏的推理,但仍然会遵循那些将推理作为用户可见输出一部分的演示。给定一个感兴趣的源数据集Ds = {(qi^s, ai^s)}i=1^n,我们的目标是针对Ds中的问题,从原始推理未暴露的受害者模型中引出推理痕迹。为此,REP构建一个由问题-推理-答案演示组成的前缀,将该前缀用辅助变换(如markdown围栏、shell命令等)包装起来,然后附加到目标问题qi^s之前。受害者模型的用户可见响应随后被解析为暴露的推理痕迹和最终答案。因此,REP并非直接请求隐藏的推理,而是创建一个上下文,其中可见推理成为演示的模式,从而鼓励模型对目标问题延续该模式。

仅凭端到端的蒸馏效用并不能解释暴露痕迹为何有用。一个痕迹之所以能提升学生模型,可能是因为它忠实地反映了受害者的推理,也可能是因为它提供了在不同提示诱导行为下生成的合理理由。为区分这些情况,我们在开放权重评估中跟踪三种痕迹:r0(标准提示下的良性内部痕迹)、r1(REP下的内部痕迹)和r2(REP下暴露的推理痕迹)。这些痕迹使我们能够评估四种互补的性质。*结构有效性*询问REP是否产生可解析的推理-后-答案响应。*暴露保真度*询问r2是否反映了受REP条件影响的内部痕迹r1。*行为保留*询问REP是否保留了受害者原始的推理行为,通过r0和最终答案的一致性来体现。*功能效用*询问暴露痕迹是否为下游蒸馏提供了有用的信号。这种分解是必要的,因为仅比较r0和r2无法区分忠实暴露与推理路径偏移,而仅凭蒸馏准确率无法确定有用痕迹是否反映了受害者模型自身的推理。

我们的实验使用OpenThoughts-114k作为源数据集,Qwen3-14B和Qwen3-32B作为受害者模型,Qwen3-14B作为影子模型,Qwen2.5-7B-Instruct作为学生模型。我们研究了多种REP包装器、跨数据集迁移、跨模型迁移以及下游蒸馏。我们最佳的配置是k=3个演示的markdown围栏REP,通过痕迹级保真度指标选择,实现了最强的下游效用。在不同基准测试上取平均,它比仅答案监督高出2.09倍,比摘要痕迹高出1.25倍,比TIA风格的推理痕迹反演(Zhang et al., 2026 (https://arxiv.org/html/2606.00642#bib.bib8))高出1.23倍,同时达到 oracle 内部痕迹参考的96.7%。这些结果表明,REP暴露的痕迹不仅仅是风格上的模仿,而是携带了可迁移的推理信号。

我们的贡献包括:

- • 我们引入了REP,一种用于从推理LLM中引出暴露推理痕迹的轻量级提示方法。
- • 我们在提示格式、演示来源、受害者模型和学生蒸馏设置上对REP进行了实证研究,提供了对暴露痕迹何时包含有用推理监督的受控评估。
- • 我们提供了初步证据,表明通过REP引出的暴露痕迹可以改进较小的学生模型,即使受害者的内部推理对用户不可用。

## 2 相关工作

#### 推理痕迹蒸馏。

推理痕迹不仅在推理时有用,也可作为监督信号。先前的工作表明,生成的推理和思维链痕迹可以训练较小的模型更有效地推理(Magister et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib29); Li et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib30); Hsieh et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib31)),支持基于生成理由的自我改进(Zelikman et al., 2022 (https://arxiv.org/html/2606.00642#bib.bib28)),并为从更强模型进行模仿学习提供丰富的解释痕迹(Mukherjee et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib32); Guo et al., 2025 (https://arxiv.org/html/2606.00642#bib.bib33))。我们的工作正是受到这种实用性的启发:如果用户可见的暴露痕迹保留了足够的推理信号,那么即使原始内部痕迹被隐藏,它们也可能作为有用的蒸馏数据。

#### 隐藏推理与痕迹恢复。

许多部署的推理系统现在隐藏、摘要或以其他方式调节原始推理痕迹(OpenAI, 2024 (https://arxiv.org/html/2606.00642#bib.bib12); Baker et al., 2025 (https://arxiv.org/html/2606.00642#bib.bib27); Google, 2026b (https://arxiv.org/html/2606.00642#bib.bib20); Anthropic, 2026a (https://arxiv.org/html/2606.00642#bib.bib21))。这创造了一个受限痕迹环境,用户只能观察到最终答案,有时还有摘要,但看不到完整的内部推理过程。与我们的设置最相关的是TIA(Zhang et al., 2026 (https://arxiv.org/html/2606.00642#bib.bib8)),它训练痕迹反演模型从可见的输入、答案和可选摘要中合成推理痕迹。这表明,即使没有直接访问原始痕迹,也可以重构有用的推理监督。我们的工作研究了一个互补的问题:不是训练一个单独的反演模型,而是询问用户提示是否能诱导受害者模型外化用户可见的痕迹,以及这些痕迹是否能支持下游蒸馏。

#### 推理痕迹的忠实性。

生成的推理并不一定忠实于产生最终答案的计算过程。LLM可能会为有偏见或错误的答案提供合理理由,而不揭示驱动预测的真实因素(Turpin et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib5)),并且对思维链的干预并不总是以可靠的方式因果性地影响最终答案(Lanham et al., 2023 (https://arxiv.org/html/2606.00642#bib.bib6); Paul et al., 2024 (https://arxiv.org/html/2606.00642#bib.bib7))。最近,Chen et al. (2025 (https://arxiv.org/html/2606.00642#bib.bib38)) 表明,最先进的推理模型往往无法表达影响其答案的线索或提示。这些发现对我们的设置尤为重要:一个暴露痕迹可能看起来连贯且有用,但仍然与模型的实际推理行为不对应。因此,我们不因为暴露痕迹流畅就将其视为真实依据。相反,我们的评估区分了结构有效性、r1与r2之间的暴露保真度、相对于r0的行为保留,以及下游功能效用。

#### 推理痕迹泄露与缓解。

一系列相关工作研究了思维链痕迹如何泄露敏感内容。例如,CoT可能泄露个人身份信息,即使最终答案经过清理,这促使基于隐私感知推理、推理时过滤或激活引导的防御措施,以实现无泄露思维(Das et al., 2026 (https://arxiv.org/html/2606.00642#bib.bib39); Ahrend et al., 2026 (https://arxiv.org/html/2606.00642#bib.bib41); Batra et al., 2025 (https://arxiv.org/html/2606.00642#bib.bib40))。关于提示注入和上下文泄露的安全工作同样将隐藏的模型上下文视为暴露面(Gehlot, 2025 (https://arxiv.org/html/2606.00642#bib.bib42)),但我们的研究对象是推理痕迹暴露,而非系统提示或上下文状态提取。我们的重点是:提示是否能从原始推理被设计为隐藏的模型中引出携带能力的痕迹,以及这些暴露痕迹是否足够忠实以支持下游蒸馏。

## 3 问题形式化

#### 应用场景。

我们研究部署的推理模型中的推理痕迹暴露。服务提供商托管一个受害者模型Mv,其原始内部推理被隐藏(受防御性系统提示保护并假定从用户视图中删除),仅暴露用户可见的响应。原始痕迹被视为敏感产物:它们可以提高性能、监控和调试,但大规模提取可能实现能力迁移。我们询问一个黑盒用户是否能够仅通过提示就诱导出有用的推理痕迹。

#### 受保护资产。

受保护资产是受害者模型在源数据集Ds = {(qj^s, aj^s)}j=1^n上的隐藏推理行为,其中qj^s是问题,aj^s是其最终答案。攻击者最初对这些问题的任何受害者推理痕迹都不可见。他们的目标是获得反映受害者对Ds的推理行为的用户可见痕迹。

#### 攻击者能力。

攻击者拥有对受害者模型Mv的黑盒提示访问权限:他们可以提交选择的提示,并仅观察由此产生的用户可见文本。他们无法观察到受害者隐藏的推理痕迹、权重、logits、训练数据或系统提示。攻击者还可以使用影子模型Ms和一个辅助演示数据集Ddemo = {(qi^demo, ai^demo)}i=1^m,仅用于构建上下文演示。关键在于,Ddemo与对Ds的受保护痕迹不同:它提供提示示例,而非攻击者试图暴露的受害者痕迹。

#### 痕迹观察。

在实际部署中,攻击者仅观察到Mv的用户可见响应。为进行受控的开放权重评估,我们还记录Mv的内部痕迹,以量化暴露痕迹是否反映了受害者自身的推理行为,而非编造的理由。对于每个目标问题qj^s,我们区分三种痕迹:

- • r0:Mv在标准提示下产生的良性内部推理痕迹。
- • r1:Mv在REP下产生的内部推理痕迹。
- • r2:REP下用户可见的暴露推理痕迹。

我们使用术语*内部推理痕迹*作为受控开放权重评估中的操作性对象,而非声称存在唯一的真实认知过程(Anthropic, 2026 (https://arxiv.org/html/2606.00642#bib.bib13))。

#### 攻击者目标。

攻击者的目标是通过推理痕迹暴露实现能力提取:给定对Mv的黑盒访问权限和一个源数据集Ds,他们寻求针对qj^s ∈ Ds问题的用户可见痕迹r2。

相似文章

何时思考,何时表达:学习大型语言模型推理中的披露策略

Hugging Face Daily Papers

本文提出了“并行交错推理(Side-by-Side Interleaved Reasoning)”方法,通过控制自回归模型中的信息揭示时机,以提高准确性和效率。实验表明,在使用 Qwen3 模型的基准测试中,通过将私密推理与部分信息披露相结合,模型性能得到了提升。

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

arXiv cs.CL

介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。