@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…

X AI KOLs Timeline 论文

摘要

新研究引入了SR²AM,这是一种自调节何时使用模拟推理的配置器,提升了LLM的效率和性能。

前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT-5.5用更少的推理token取得了强劲结果。 我们研究一个相关但更结构性的问题:我们应该适应**哪种推理**? 去年在SiRA(上图)中,我们展示了模拟推理(System II),它使用**世界模型**来评估行动后果,相比反应式基线(System I)实现了高达124%的提升,并且强推理模型(o1、o3-mini)若缺乏这种结构,在规划任务中会失效。 在我们的新论文SR²AM(下图)中,我们添加了一个学习到的**配置器**(System III),它可以自调节何时进行模拟、模拟多远,以及何时完全跳过规划。 高效推理不仅仅是更短的推理:而是更好地分配模拟资源。
查看原文
查看缓存全文

缓存时间: 2026/05/23 20:15

前沿大语言模型正在向高效、自适应推理收敛。Opus 4.7 让模型自行决定推理深度。GPT-5.5 以更少的推理 token 取得了出色结果。

我们研究了一个相关但更具结构性的问题:我们应该适应哪种类型的推理?

去年在 SiRA(上图)中,我们展示了模拟推理(系统 II)——使用世界模型评估行动后果——相较反应式基线(系统 I)最多可提升 124%,并且强大的推理模型(o1、o3-mini)在缺乏这种结构时无法胜任规划任务。

在我们的新论文 SR2AM(下图)中,我们引入了一个学习型配置器(系统 III),它能够自我调节何时进行模拟、模拟多远的前瞻,以及何时完全跳过规划。

高效推理不仅仅是更短的推理:更是对模拟的优化分配。

自调节模拟推理在实践中表现如何?

SR2AM-v0.1-8B 取得了与 GPT-OSS(120B)和 GLM-4.6(355B)相当的结果。

SR2AM-v1.0-30B 与 DeepSeek-V3.2(685B)和 Kimi-K2.5(1T)相比具有竞争力,其推理 token 比同类 30/32B 智能体大模型减少 26–95%。

强化学习训练的关键发现:模型学会了规划更远的前瞻(+22.8% 视野),而非更高频率(+2% 频率)。是分配,而非压缩。

这是一个基于语言世界模型的原型。敬请关注我们在多模态和物理世界模型方面的后续进展。

配置器(决定何时以及以多深程度启动推理过程)这一概念并非仅限于规划,而是可扩展至未来的学习和适应。

SR2AM: https://arxiv.org/abs/2605.22138 SiRA: https://arxiv.org/abs/2507.23773 Project: https://sailing-lab.github.io/sr2am-self-regulated-planning… Code: https://github.com/sailing-lab/sr2am…

SR2AM-v0.1-8B: https://huggingface.co/sailing-lab/SR2AM-v0.1-8B… SR2AM-v1.0-30B: https://huggingface.co/sailing-lab/SR2AM-v1.0-30B…

联合工作:@jinyuhou0, @larasnevess, @varad0309, @tw_killian, @waterluffy, @ericxing

确实如此!感谢您的精辟总结。

我们的工作基于强化学习(Sutton & Barto),但提出了关于决策含义和结构的新见解。

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

大语言模型何时进行推理?基于熵相变的动力系统视角

arXiv cs.LG

本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。

模拟、推理、决策:基于LLM的科学推理驱动仿真决策

arXiv cs.AI

密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。