揭秘隐藏状态递归:基于在策略强化学习的可切换隐式推理
摘要
SWITCH 是一种可切换隐式推理框架,它使用显式边界标记,通过基于在策略的强化学习实现可训练且可解释的递归隐状态推理,优于先前的方法。
查看缓存全文
缓存时间: 2026/06/12 06:51
论文页面 - 揭秘隐状态循环:基于在线策略强化学习的可切换潜在推理
来源:https://huggingface.co/papers/2606.13106 发布于6月11日 · 由https://huggingface.co/EasonFan fan (https://huggingface.co/EasonFan)于6月12日提交
摘要
一个可切换的潜在推理框架使用显式边界令牌,通过循环隐状态实现可训练且可解释的潜在推理。潜在思维链(https://huggingface.co/papers?q=Latent%20chain-of-thought)通过用连续的隐状态循环(https://huggingface.co/papers?q=hidden-state%20recurrence)替代可见推理轨迹来压缩推理,但现有公式难以通过标准的在线策略强化学习(https://huggingface.co/papers?q=on-policy%20reinforcement%20learning)(RL)进行优化,并且难以进行因果解释。我们的关键洞察是,一对显式边界令牌可以同时解决这两个问题:离散的进入和退出锚点使得潜在块与标准的在线策略RL兼容,并且相同的锚点为机制分析(https://huggingface.co/papers?q=mechanistic%20analysis)提供了自然的立足点。受此启发,我们提出了SWITCH,一个可切换的潜在推理(https://huggingface.co/papers?q=switchable%20latent%20reasoning)框架。模型发出
查看arXiv页面(https://arxiv.org/abs/2606.13106) 查看PDF(https://arxiv.org/pdf/2606.13106) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13106)
在你的agent中获取论文:hf papers read 2606.13106
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型
0 篇没有引用该论文的模型 在模型README.md中引用arxiv.org/abs/2606.13106以链接到此页面。
引用该论文的数据集
0 篇没有引用该论文的数据集 在数据集README.md中引用arxiv.org/abs/2606.13106以链接到此页面。
引用该论文的Space
0 个没有引用该论文的Space 在Space README.md中引用arxiv.org/abs/2606.13106以链接到此页面。
包含该论文的收藏集
0 篇没有包含该论文的收藏集 添加该论文到收藏集(https://huggingface.co/new-collection)以链接到此页面。
相似文章
神经伴随状态策略:在循环强化学习中构建隐藏状态
本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。
@machinestein: ICML 2026:TRMs中的潜在推理实际上是策略改进算子 为什么递归推理,尤其是…
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。