@machinestein: ICML 2026:TRMs中的潜在推理实际上是策略改进算子 为什么递归推理,尤其是…
摘要
论文揭示了基于transformer的推理模型(TRMs)中的潜在推理实际上充当了策略改进算子,并提出了一种算法,将学习和推理效率提升高达18倍。
查看缓存全文
缓存时间: 2026/06/16 17:40
ICML 2026:TRM中的潜在推理本质上是策略改进算子
为什么递归推理,尤其是潜在推理,实际上能奏效?相关理论仍处于早期阶段,甚至机械论解释也相当有限。
我们填补了这一空白的一部分,证明潜在推理本质上是在进行策略改进。每一次递归都会促使模型稳步逼近目标。
基于这一观点,我们提出了一种算法,可将学习与推理效率提升高达18倍。
相似文章
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
揭秘隐藏状态递归:基于在策略强化学习的可切换隐式推理
SWITCH 是一种可切换隐式推理框架,它使用显式边界标记,通过基于在策略的强化学习实现可训练且可解释的递归隐状态推理,优于先前的方法。
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。
自适应潜在智能体推理
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。