揭秘隐藏状态递归:基于在策略强化学习的可切换隐式推理

Hugging Face Daily Papers 论文

摘要

SWITCH 是一种可切换隐式推理框架,它使用显式边界标记,通过基于在策略的强化学习实现可训练且可解释的递归隐状态推理,优于先前的方法。

隐式思维链通过用连续的隐藏状态递归替换可见的推理轨迹来压缩推理过程,但现有的方法难以用标准的在策略强化学习(RL)进行优化,且难以进行因果解释。我们的关键见解是,一对显式边界标记能同时解决这两个问题:离散的进入和退出锚点使隐式模块与标准的在策略RL兼容,同时同样的锚点为机制分析提供了自然的立足点。受此启发,我们提出了 SWITCH,一种可切换隐式推理框架。模型发射 <swi> 进入隐式模式,发射 </swi> 退出。由于边界是普通的离散标记,GRPO 策略比率在每个决策点都是良好定义的。同样的锚点也使隐式步骤暴露于直接探测和因果干预之下。我们使用从可见到隐式的课程学习和 Switch-GRPO 目标来训练模型,该目标通过递归隐式计算传播梯度。SWITCH 持续优于先前同等规模下的隐藏状态递归隐式推理方法。通过边界标记进行的机制分析进一步揭示了三个发现:(i) <swi> 是一个高度局部化的、学习到的切换策略,而不是一种风格化的人为产物;(ii) 它打开的隐式步骤执行了问题特定的、因果重要的计算,而不是作为一个惰性占位符;(iii) 该计算集中在进入时的一个隐藏状态转换上。综合来看,这些结果表明隐藏状态递归隐式推理既具备RL可训练性,又对直接机制分析开放,包括在策略RL本身如何从内部改进模型。
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - 揭秘隐状态循环:基于在线策略强化学习的可切换潜在推理

来源:https://huggingface.co/papers/2606.13106 发布于6月11日 · 由https://huggingface.co/EasonFan fan (https://huggingface.co/EasonFan)于6月12日提交

摘要

一个可切换的潜在推理框架使用显式边界令牌,通过循环隐状态实现可训练且可解释的潜在推理。潜在思维链(https://huggingface.co/papers?q=Latent%20chain-of-thought)通过用连续的隐状态循环(https://huggingface.co/papers?q=hidden-state%20recurrence)替代可见推理轨迹来压缩推理,但现有公式难以通过标准的在线策略强化学习(https://huggingface.co/papers?q=on-policy%20reinforcement%20learning)(RL)进行优化,并且难以进行因果解释。我们的关键洞察是,一对显式边界令牌可以同时解决这两个问题:离散的进入和退出锚点使得潜在块与标准的在线策略RL兼容,并且相同的锚点为机制分析(https://huggingface.co/papers?q=mechanistic%20analysis)提供了自然的立足点。受此启发,我们提出了SWITCH,一个可切换的潜在推理(https://huggingface.co/papers?q=switchable%20latent%20reasoning)框架。模型发出以进入潜在模式,发出以退出。由于边界是普通的离散令牌,GRPO策略比率(https://huggingface.co/papers?q=GRPO%20policy%20ratio)在每个决策点都有良好定义。相同的锚点还使潜在步骤暴露于直接探针和因果干预。我们使用一个可见到潜在课程(https://huggingface.co/papers?q=visible-to-latent%20curriculum)和一个Switch-GRPO目标(https://huggingface.co/papers?q=Switch-GRPO%20objective)来训练模型,后者通过循环潜在计算传播梯度。SWITCH在相似规模下始终优于先前的基于隐状态循环的潜在推理(https://huggingface.co/papers?q=latent%20reasoning)方法。通过边界令牌进行的机制分析(https://huggingface.co/papers?q=Mechanistic%20analysis)进一步揭示了三个发现:(i) 是一个尖锐局部化的、学得的切换策略,而非风格化伪影;(ii) 它所开启的潜在步骤执行了特定问题的、因果重要计算,而非充当惰性占位符;(iii) 该计算集中在进入时的单个隐状态跃迁上。综上,这些结果表明,基于隐状态循环的潜在推理(https://huggingface.co/papers?q=latent%20reasoning)既可被RL训练,也直接开放给机制分析(https://huggingface.co/papers?q=mechanistic%20analysis),包括分析在线策略RL本身如何从内部改进模型。

查看arXiv页面(https://arxiv.org/abs/2606.13106) 查看PDF(https://arxiv.org/pdf/2606.13106) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13106)

在你的agent中获取论文:hf papers read 2606.13106 没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型

0 篇没有引用该论文的模型 在模型README.md中引用arxiv.org/abs/2606.13106以链接到此页面。

引用该论文的数据集

0 篇没有引用该论文的数据集 在数据集README.md中引用arxiv.org/abs/2606.13106以链接到此页面。

引用该论文的Space

0 个没有引用该论文的Space 在Space README.md中引用arxiv.org/abs/2606.13106以链接到此页面。

包含该论文的收藏集

0 篇没有包含该论文的收藏集 添加该论文到收藏集(https://huggingface.co/new-collection)以链接到此页面。

相似文章