@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…

X AI KOLs Timeline 2026/05/22 15:28 论文

reasoning llm adaptive-reasoning simulative-reasoning system-ii research efficient-reasoning

摘要

新研究引入了SR²AM，这是一种自调节何时使用模拟推理的配置器，提升了LLM的效率和性能。

前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT-5.5用更少的推理token取得了强劲结果。我们研究一个相关但更结构性的问题：我们应该适应**哪种推理**？去年在SiRA（上图）中，我们展示了模拟推理（System II），它使用**世界模型**来评估行动后果，相比反应式基线（System I）实现了高达124%的提升，并且强推理模型（o1、o3-mini）若缺乏这种结构，在规划任务中会失效。在我们的新论文SR²AM（下图）中，我们添加了一个学习到的**配置器**（System III），它可以自调节何时进行模拟、模拟多远，以及何时完全跳过规划。高效推理不仅仅是更短的推理：而是更好地分配模拟资源。

查看原文

查看缓存全文

缓存时间: 2026/05/23 20:15

前沿大语言模型正在向高效、自适应推理收敛。Opus 4.7 让模型自行决定推理深度。GPT-5.5 以更少的推理 token 取得了出色结果。

我们研究了一个相关但更具结构性的问题：我们应该适应哪种类型的推理？

去年在 SiRA（上图）中，我们展示了模拟推理（系统 II）——使用世界模型评估行动后果——相较反应式基线（系统 I）最多可提升 124%，并且强大的推理模型（o1、o3-mini）在缺乏这种结构时无法胜任规划任务。

在我们的新论文 SR2AM（下图）中，我们引入了一个学习型配置器（系统 III），它能够自我调节何时进行模拟、模拟多远的前瞻，以及何时完全跳过规划。

高效推理不仅仅是更短的推理：更是对模拟的优化分配。

自调节模拟推理在实践中表现如何？

SR2AM-v0.1-8B 取得了与 GPT-OSS（120B）和 GLM-4.6（355B）相当的结果。

SR2AM-v1.0-30B 与 DeepSeek-V3.2（685B）和 Kimi-K2.5（1T）相比具有竞争力，其推理 token 比同类 30/32B 智能体大模型减少 26–95%。

强化学习训练的关键发现：模型学会了规划更远的前瞻（+22.8% 视野），而非更高频率（+2% 频率）。是分配，而非压缩。

这是一个基于语言世界模型的原型。敬请关注我们在多模态和物理世界模型方面的后续进展。

配置器（决定何时以及以多深程度启动推理过程）这一概念并非仅限于规划，而是可扩展至未来的学习和适应。

SR2AM: https://arxiv.org/abs/2605.22138 SiRA: https://arxiv.org/abs/2507.23773 Project: https://sailing-lab.github.io/sr2am-self-regulated-planning… Code: https://github.com/sailing-lab/sr2am…

SR2AM-v0.1-8B: https://huggingface.co/sailing-lab/SR2AM-v0.1-8B… SR2AM-v1.0-30B: https://huggingface.co/sailing-lab/SR2AM-v1.0-30B…

联合工作：@jinyuhou0, @larasnevess, @varad0309, @tw_killian, @waterluffy, @ericxing

确实如此！感谢您的精辟总结。

我们的工作基于强化学习（Sutton & Barto），但提出了关于决策含义和结构的新见解。

@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…

相似文章

@pallavishekhar_: 大型推理模型 (LRMs) 阅读链接：https://outcomeschool.com/blog/large-reasoning-models…

学习如何让大语言模型进行推理

大语言模型何时进行推理？基于熵相变的动力系统视角

模拟、推理、决策：基于LLM的科学推理驱动仿真决策

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

提交意见反馈