@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是…

X AI KOLs Timeline 2026/06/16 14:00 论文

latent-reasoning policy-improvement theory recursive-reasoning efficiency icml transformers

摘要

论文揭示了基于transformer的推理模型（TRMs）中的潜在推理实际上充当了策略改进算子，并提出了一种算法，将学习和推理效率提升高达18倍。

ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是潜在推理，实际上有效？相关理论尚不成熟，甚至机制解释也很有限。我们部分地填补了这一空白，证明了潜在推理实际上在进行策略改进。每次递归都将模型稳步推向目标。基于这一观点，我们提出了一种算法，将学习和推理效率提升高达18倍。

查看原文

查看缓存全文

缓存时间: 2026/06/16 17:40

ICML 2026：TRM中的潜在推理本质上是策略改进算子

为什么递归推理，尤其是潜在推理，实际上能奏效？相关理论仍处于早期阶段，甚至机械论解释也相当有限。

我们填补了这一空白的一部分，证明潜在推理本质上是在进行策略改进。每一次递归都会促使模型稳步逼近目标。

基于这一观点，我们提出了一种算法，可将学习与推理效率提升高达18倍。

相似文章

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

arXiv cs.CL

本文挑战了强化学习（RL）能为大语言模型（LLM）教授新推理能力的假设，论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer，这是一种无需强化学习的方法，以显著更低的训练成本实现了与完整强化学习相当的性能。

揭秘隐藏状态递归：基于在策略强化学习的可切换隐式推理

Hugging Face Daily Papers

SWITCH 是一种可切换隐式推理框架，它使用显式边界标记，通过基于在策略的强化学习实现可训练且可解释的递归隐状态推理，优于先前的方法。

学习细化隐藏状态以实现可靠的LLM推理

arXiv cs.LG

提出了ReLAR，一种强化引导的潜在细化框架，在解码前迭代更新LLM中的隐藏表示，与思维链方法相比，提高了推理可靠性和效率。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法，通过重新编码数据以显式表示关系，实现高效且原则性的推理，并具备关系规则的多项式时间可学习性，从而解决幻觉问题并支持跨多次调用的可靠推理。

自适应潜在智能体推理