@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…
摘要
新研究引入了SR²AM,这是一种自调节何时使用模拟推理的配置器,提升了LLM的效率和性能。
查看缓存全文
缓存时间: 2026/05/23 20:15
前沿大语言模型正在向高效、自适应推理收敛。Opus 4.7 让模型自行决定推理深度。GPT-5.5 以更少的推理 token 取得了出色结果。
我们研究了一个相关但更具结构性的问题:我们应该适应哪种类型的推理?
去年在 SiRA(上图)中,我们展示了模拟推理(系统 II)——使用世界模型评估行动后果——相较反应式基线(系统 I)最多可提升 124%,并且强大的推理模型(o1、o3-mini)在缺乏这种结构时无法胜任规划任务。
在我们的新论文 SR2AM(下图)中,我们引入了一个学习型配置器(系统 III),它能够自我调节何时进行模拟、模拟多远的前瞻,以及何时完全跳过规划。
高效推理不仅仅是更短的推理:更是对模拟的优化分配。
自调节模拟推理在实践中表现如何?
SR2AM-v0.1-8B 取得了与 GPT-OSS(120B)和 GLM-4.6(355B)相当的结果。
SR2AM-v1.0-30B 与 DeepSeek-V3.2(685B)和 Kimi-K2.5(1T)相比具有竞争力,其推理 token 比同类 30/32B 智能体大模型减少 26–95%。
强化学习训练的关键发现:模型学会了规划更远的前瞻(+22.8% 视野),而非更高频率(+2% 频率)。是分配,而非压缩。
这是一个基于语言世界模型的原型。敬请关注我们在多模态和物理世界模型方面的后续进展。
配置器(决定何时以及以多深程度启动推理过程)这一概念并非仅限于规划,而是可扩展至未来的学习和适应。
SR2AM: https://arxiv.org/abs/2605.22138 SiRA: https://arxiv.org/abs/2507.23773 Project: https://sailing-lab.github.io/sr2am-self-regulated-planning… Code: https://github.com/sailing-lab/sr2am…
SR2AM-v0.1-8B: https://huggingface.co/sailing-lab/SR2AM-v0.1-8B… SR2AM-v1.0-30B: https://huggingface.co/sailing-lab/SR2AM-v1.0-30B…
联合工作:@jinyuhou0, @larasnevess, @varad0309, @tw_killian, @waterluffy, @ericxing
确实如此!感谢您的精辟总结。
我们的工作基于强化学习(Sutton & Barto),但提出了关于决策含义和结构的新见解。
相似文章
@pallavishekhar_: 大型推理模型 (LRMs) 阅读链接:https://outcomeschool.com/blog/large-reasoning-models…
这篇博客文章介绍了大型推理模型 (LRMs),它们与标准LLM的区别、训练方式以及使用时机。文中涵盖了DeepSeek R1和GPT-5.5 Thinking等例子。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
模拟、推理、决策:基于LLM的科学推理驱动仿真决策
密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。
@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。