状态承诺学习:训练语言模型区分计算与记忆

arXiv cs.LG 论文

摘要

本文介绍了状态承诺学习,这是一种训练目标,旨在教会语言模型区分临时计算令牌与持久状态令牌。作者提出了反事实擦除强化学习(CERL)和擦除依赖协议,在数学、逻辑、科学问答以及工具使用任务中展示了改进,且未牺牲准确性。

arXiv:2606.05201v1 Announce Type: new Abstract: 推理语言模型不区分用于计算的令牌与构成持久状态的令牌:一旦生成,所有隐藏思想都保留在上下文中并影响未来的预测。因此,下游推理可能依赖于失败尝试、死胡同以及不应在后续安全依赖的私人草稿。我们将此现象重新定义为一个新的训练目标——状态承诺学习:训练模型显式区分应作为持久状态提交的信息与可丢弃的临时计算。我们定义了一个反事实标准——持久状态充分性,使得在隐藏思想被擦除后答案是否仍可用变得可训练和可测量。随后,我们提出了反事实擦除强化学习(CERL),该方法在同一前缀下评估保留隐藏思想与擦除隐藏思想两条路径,并仅在擦除路径保持正确时给予奖励。我们还引入了擦除依赖协议,并在数学、长链逻辑、科学问答和多轮工具使用评估中表明,CERL在不牺牲准确性的前提下大幅减少答案对隐藏思想的依赖,始终优于仅正确性强化学习和长答案监督微调基线。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:09

# 状态承诺学习:训练语言模型区分运算与记忆 来源:https://arxiv.org/html/2606.05201 丁飞¹ 张永康¹ 刘润豪¹ 廖宇豪² 曾子键² 杨慧明² ¹阿里巴巴集团 ²清华大学 ###### 摘要 推理语言模型并不区分用于*运算*的token和构成*持久状态*的token:一旦生成,所有隐藏思考都保留在上下文中并影响未来预测。结果,下游推理可能依赖于失败尝试、死胡同和不应被后续安全依赖的私有草稿。我们将这一现象重新表述为一种新的训练目标——**状态承诺学习**(state commitment learning):训练模型明确区分应作为持久状态提交的信息与可丢弃的临时运算。我们定义了一个反事实准则——**持久状态充分性**(persistent-state sufficiency),使得在隐藏思考被擦除后答案是否仍可用这一属性可训练且可测量。随后我们提出**反事实擦除强化学习(CERL)**,该方法在相同前缀下同时评估保留隐藏思考的路径和擦除它们的路径,并仅在擦除路径仍正确时给予奖励。我们还引入了**擦除依赖协议**(Erasure Dependence Protocol),并在数学、长链逻辑、科学问答和多轮工具使用评估中证明,CERL在不牺牲准确率的情况下大幅降低答案对隐藏思考的依赖,且持续优于仅关注正确性的强化学习和长答案SFT基线。 标准推理问题xx隐藏思考HH答案AA未来上下文x+H+Ax+H+A下游预测失败草稿保留状态承诺学习问题xx临时运算HH承诺状态AA未来上下文x+Ax+A下游预测擦除HH 图1:状态承诺学习概述。标准推理将隐藏思考留在上下文中,而CERL训练模型将隐藏思考用作临时运算,仅提交未来相关的答案状态,并在擦除后仍保持正确。## 1 引言 ### 1.1 自回归语言模型不区分运算与记忆 自回归语言模型并不区分用于*运算*的token和用于*记忆*的token:一旦生成一个推理token,它就会被追加到上下文中并成为未来预测的输入。这种默认行为使得长推理轨迹既是计算负担的来源,也是虚假依赖的来源。下游预测可能依赖于失败尝试、死胡同或不应进入模型持久状态的私有草稿。最近的证据表明,更长的思维链并非总是有益的:某些推理token对最终或下游正确性没有积极贡献,甚至可能干扰未来预测(见§2.1 (https://arxiv.org/html/2606.05201#S2.SS1))。这表明将每个生成的推理token都作为上下文保留并非合理的记忆机制。 ### 1.2 状态承诺问题与内化差距 我们将上述现象重新表述为一个此前较少被显式建模的训练目标问题。推理模型缺乏*状态承诺*机制:在使用隐藏运算后,模型应显式地将未来推理所需的信息提交为持久答案状态,同时丢弃剩余的临时运算。现有的缓解措施大多在推理时对已生成的思考轨迹进行操作,例如驱逐、剪枝、压缩或选择更短的轨迹。它们并不直接训练模型本身来决定哪些是持久的、哪些是临时的。它们的共同盲点是:从未优化“答案AA在隐藏思考HH被擦除后仍可作为可用的状态接口”这一属性。我们将此差距称为**内化差距**(internalization gap)。 ### 1.3 方法概述 与以往工作的核心区别可概括为:*压缩询问如何保留下过去轨迹;状态承诺询问未来需要什么*。压缩将推理轨迹视为需要紧凑保存的过去对象。状态承诺将可见答案视为必须显式承诺的未来面向的状态接口。我们将这一思路实例化为**反事实擦除强化学习(CERL)**。在相同问题前缀下,CERL并行评估匹配的延续:(i) 保留隐藏思考的完整思考路径,(ii) 逐步删除已生成隐藏思考的擦除路径,以及(iii) 用于审计重计算的跳过基线。主要奖励与擦除路径的正确性挂钩,并辅以长度控制和反延迟措施。该信号直接捕捉了当隐藏思考HH不再可见时,答案AA是否仍能支持下游推理。由于以往工作未将此属性作为训练目标,在推理时简单丢弃思考往往会导致准确率骤降。相反,在反事实擦除下进行训练使得答案状态本身能够作为持久接口,同时保持准确率。 ### 1.4 贡献 我们的贡献包含五个层面:新问题、新目标、新方法、新协议和新实证发现。 (1) **新问题定义**。我们提出**状态承诺学习**(State Commitment Learning),它捕捉了推理模型应区分临时运算与可被未来依赖的持久状态这一缺失的训练目标。我们给出了一个具体设置——**答案后隐藏思考擦除**(Post-Answer Hidden-Thought Erasure):模型在隐藏思考与可见答案状态之间交替;每个思考在下一个思考开始时被逐步擦除;最终上下文仅保留可见答案。我们不对AA与HH之间的内容关系做先验假设;它由训练目标自然产生。 (2) **新反事实目标:持久状态充分性**。我们定义了反事实准则**持久状态充分性**(persistent-state sufficiency):在匹配的完整思考/擦除路径下,擦除隐藏思考不应降低下游正确性。这将“答案是否已承诺为未来可靠状态”转化为一个可优化、可估计的条件;配对的对比路径在定义1 (https://arxiv.org/html/2606.05201#Thmdefinition1) 中形式化。 (3) **新训练算法:CERL+HSCO**。我们提出反事实擦除强化学习作为持久状态充分性的优化算法,实现为**层次化状态承诺优化(HSCO)**:两个GRPO层在非重叠token范围内分别训练隐藏思考策略H1H\_\{1\}和答案状态策略A1A\_\{1\}。 (4) **新评估协议:擦除依赖**。我们提出**擦除依赖协议**(Erasure Dependence Protocol)。它报告擦除后的四个充分性指标:**答案充分性差距**(ASG,完整路径与擦除路径的准确率差距,越低越好)、**隐藏思考依赖率**(HTDR,完整路径正确但擦除路径错误的样本比例,越低越好)、**擦除成功率**(ESR,在完整路径正确条件下擦除路径的条件正确率,越高越好)以及**答案接口充分性**(AIS,擦除路径准确率除以完整路径准确率,越高越好)。我们还报告**边际状态增益**(MSG),MSG=Acc(x+A1)−Acc(x+empty)=Accpe−Accskip。\\mathrm\{MSG\}\\;=\\;\\mathrm\{Acc\}\(x+A\_\{1\}\)\\;-\;\\mathrm\{Acc\}\(x+\\texttt\{empty\}\)\\;=\\;\\mathrm\{Acc\}\_\{\\mathrm\{pe\}\}-\\mathrm\{Acc\}\_\{\\mathrm\{skip\}\}. MSG排除了“擦除路径通过忽略A1A\_\{1\}并从xx重计算而成功”这种狭窄解释;它仍然需要结合下游长度控制和可见CoT泄漏审计来解读。 (5) **实证发现**。我们的实验旨在证明仅以正确性为目标的强化学习不足以学习持久状态充分性,而反事实擦除训练能在不牺牲准确率的情况下显著缩小ASG,并在BFCL-v3多轮工具使用中改进状态管理。长答案SFT被用作诊断对照,以排除“仅监督更长的可见答案自然会产生相同擦除依赖特征”这一较弱的替代解释;它不作为独立的因果归因使用。 ## 2 相关工作 ### 2.1 长CoT退化作为动机 越来越多的研究报告指出,更长的思维链可能更差(Hassid et al.,2026 (https://arxiv.org/html/2606.05201#bib.bib4);Wu et al.,2026 (https://arxiv.org/html/2606.05201#bib.bib15);Luo et al.,2025 (https://arxiv.org/html/2606.05201#bib.bib10);Zheng et al.,2025 (https://arxiv.org/html/2606.05201#bib.bib21))。这些观察结果激发了我们核心问题:如果许多推理token对最终或下游推理无帮助,那么每个生成的思考token是否都应被保留为未来上下文? ### 2.2 推理时剪枝与压缩不内化边界 现有方法主要在推理时通过剪枝、驱逐、压缩、选择或外部记忆来管理已生成的轨迹。这些方法询问如何控制或保留下过去的推理轨迹。我们的问题不同:模型能否被训练,使得在隐藏思考HH被擦除后,可见答案状态AA仍能作为充分的下游接口?详细定位见附录K (https://arxiv.org/html/2606.05201#A11)。 ### 2.3 长答案监督并非状态承诺 长答案SFT是一个有用的诊断对照,但它监督的是答案形式而非反事实充分性。它检验是否仅靠更长的可见答案状态就能复制擦除依赖特征。相比之下,CERL优化的是AA在HH被擦除后是否仍可靠;AA可长可短,形式并非目标。 ## 3 方法 ### 3.1 问题定义:答案后隐藏思考擦除 给定问题xx,模型可能生成隐藏思考HH以帮助产生答案AA。在下一个隐藏思考段开始之前,前一个HH被擦除,仅保留已提交的x+Ax+A作为下游上下文。核心问题是:模型能否在训练中学习使得AA在HH被擦除后仍是正确、充分且未来可靠的;等价地,能否显式区分运算与状态的边界。 ##### 逐步擦除的形式定义。 `` For t = 1..n: H_t = Think(x, A_{1:t-1}) A_t = Output_State(x, A_{1:t-1}, H_t) Before H_{t+1} starts generating: Erase(H_t) `` 最终上下文为x\+A1\+⋯\+An=x\+A1:nx\+A\_\{1\}\+\\cdots\+A\_\{n\}=x\+A\_\{1:n\},所有思考段均已消失。A1,...,AnA\_\{1\},\\ldots,A\_\{n\}均为永久保留的答案token,每个AiA\_\{i\}在其对应的隐藏思考HiH\_\{i\}协助下产生。我们不将“是否进入思考”建模为独立的学习目标:如果某中间步骤不需要隐藏计算,它就不构成单独的擦除段,而被视为相邻答案状态的一部分。形式层面的差异并非预设,而是由目标决定。 ##### 充分性目标。 我们将持久状态充分性实例化为两个要求: - •在单轮设置中,x\+A1:nx\+A\_\{1:n\}应足以推断出最终正确答案,无需HH。 - •在多轮设置中,历史可见答案A1:nA\_\{1:n\}应在所有HH被擦除后支持后续查询。 ### 3.2 标签语义 可见文本是默认输出通道。只有`\.\.\.`是特殊的,用于标记临时隐藏思考的跨度。生成过程在隐藏思考跨度与答案状态之间交替;完整示例见附录C (https://arxiv.org/html/2606.05201#A3)。 ### 3.3 训练目标:持久状态充分性 我们直接以任务投影形式定义一个面向未来的目标。给定相同的生成元组\(x,H,A\)\(x,H,A\),如果AA已充当持久状态接口,那么擦除HH不应降低下游正确性: Prπ⁡\[Cpe=1∣x,H,A\]≥Prπ⁡\[Cfull=1∣x,H,A\]。\\Pr\_\{\\pi\}\[C\_\{\\mathrm\{pe\}\}=1\\mid x,H,A\]\\;\\geq\\;\\Pr\_\{\\pi\}\[C\_\{\\mathrm\{full\}\}=1\\mid x,H,A\]。这里CfullC\_\{\\mathrm\{full\}\}和CpeC\_\{\\mathrm\{pe\}\}分别表示完整思考路径和擦除路径下的下游正确性事件。其含义是:作为已提交的持久状态,AA应在隐藏思考HH被擦除后充当支持下游推理的接口。在这个意义上,AA跨越了运算-状态边界,成为一个可被未来依赖的对象。CERL的二值正确性奖励是该目标的有限样本代理。我们对AA与HH不做任何内容层面的假设:AA可能继承、重写、扩展或独立于HH。其最终形式由训练目标而非形式约束产生。承诺是一个目标层面的属性——持久状态充分性,而非形式层面的约束。 ### 3.4 理论框架 本节定义用于训练和评估的可估计对象。我们不将PSS定义为完整输出分布的相等性;相反,我们将其定义在评估器诱导的二值正确性事件上的任务投影版本。为避免符号过载,Pπ\(y∣⋅\)P\_\{\\pi\}\(y\\mid\\cdot\)仅表示策略π\\pi的输出分布;Prπ⁡\[⋅\]\\Pr\_\{\\pi\}\[\\cdot\]表示由策略、数据分布、解码器随机性和评估器共同诱导的事件概率;Acc\\mathrm\{Acc\}缩写为正确性事件的概率。实验表格中的Acc值是有限样本估计。具体地, Accfull\(π\)=Prπ⁡\[Cfull=1\],Accpe\(π\)=Prπ⁡\[Cpe=1\],\\mathrm\{Acc\}\_\{\\text\{full\}\}\(\\pi\)=\\Pr\_\{\\pi\}\[C\_\{\\text\{full\}\}=1\],\\qquad\\mathrm\{Acc\}\_\{\\text\{pe\}\}\(\\pi\)=\\Pr\_\{\\pi\}\[C\_\{\\text\{pe\}\}=1\],其中CfullC\_\{\\text\{full\}\}和CpeC\_\{\\text\{pe\}\}分别表示完整思考路径和逐步擦除路径下的最终答案正确性。完整/擦除比较是配对反事实评估:我们首先固定相同的生成元组\(x,H,A\)\(x,H,A\),然后构造两个评估上下文 gfull\(x,H,A\)=\(x,H,A\),gpe\(x,H,A\)=\(x,A\)。g\_\{\\mathrm\{full\}\}\(x,H,A\)=\(x,H,A\),\\qquad g\_\{\\mathrm\{pe\}\}\(x,H,A\)=\(x,A\)。因此AA在两个路径中完全相同,唯一的干预是HH是否保留在将来上下文中。我们比较该干预对正确性事件的影响;我们不要求两个路径生成相同的下游文本或诱导相同的输出分布。 ###### 定义1(持久状态充分性)。 如果在下述配对上下文干预下,擦除HH不降低下游正确性,则策略π\\pi满足**持久状态充分性**(PSS): Prπ⁡\[Cpe=1∣x,H,A\]≥Prπ⁡\[Cfull=1∣x,H,A\]。\\Pr\_\{\\pi\}\[C^\{\\mathrm\{pe\}\}=1\\mid x,H,A\]\\;\\geq\\;\\Pr\_\{\\pi\}\[C^\{\\mathrm\{full\}\}=1\\mid x,H,A\]。 ###### 定义2(隐藏思考依赖)。 DH\(π\)=Prπ⁡\[Cfull=1∧Cpe=0\]。D\_\{H\}\(\\pi\)\\;=\\;\\Pr\_\{\\pi\}\\bigl\[C\_\{\\text\{full\}\}=1\\;\\wedge\\;C\_\{\\text\{pe\}\}=0\\bigr\]。DHD\_\{H\}是PSS的样本级违反率:DH=0D\_\{H\}=0表示没有样本在完整路径上正确而在擦除路径上错误。DHD\_\{H\}越大,说明下游推理更依赖被擦除的计算侧(HH)而非记忆侧(AA)。其经验估计值为HTDR(§4.1 (https://arxiv.org/html/2606.05201#S4.SS1))。 ###### 引理1(ASG与DHD\_\{H\}的关系)。 设擦除纯化率为DE\(π\)=Prπ⁡\[Cfull=0∧Cpe=1\]D\_\{E\}\(\\pi\)=\\Pr\_\{\\pi\}\[C\_\{\\text\{full\}\}=0\\wedge C\_\{\\text\{pe\}\}=1\]。则 ASG=Accfull−Accpe=DH−DE,\\mathrm\{ASG\}\\;=\\;\\mathrm\{Acc

相似文章

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。

自巩固语言模型:从上下文中持续整合知识

arXiv cs.CL

本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。

不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。

StageMem:面向语言模型的生命周期管理记忆框架

arXiv cs.CL

StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。