@jinyuhou0: 在主流基准测试中，我们的30B模型与规模大20-30倍的系统（gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5）匹敌，而……

X AI KOLs Timeline 2026/05/22 18:41 模型

efficient-reasoning adaptive-reasoning open-source agentic-llm reasoning-allocation benchmark

摘要

一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌，同时相比同类30/32B智能体大语言模型，使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的，该配置器决定何时以及如何进行推理。模型和代码已开放。

在主流基准测试中，我们的30B模型与规模大20-30倍的系统（gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5）匹敌，同时相比同类30/32B智能体大语言模型，使用的推理令牌减少高达95%。诀窍：不仅仅是减少推理，而是对正确的事情进行推理。学习型配置器决定何时模拟、向前推演多远，以及何时完全跳过规划。高效推理是分配问题，而非压缩问题。模型和代码已开放。

查看原文

查看缓存全文

缓存时间: 2026/05/24 10:27

在主流基准测试中，我们的30B模型在性能上与规模大20-30倍的系统（如gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5）持平，同时比同类30/32B智能体LLM减少多达95%的推理令牌。

诀窍在于：不仅要减少推理，还要推理正确的事项。一个经过学习的配置器决定何时进行模拟、模拟多远的未来，以及何时完全跳过规划。

高效推理是一个分配问题，而非压缩问题。

模型和代码已公开可用。

Mingkai Deng (@mdeng34):
前沿大语言模型正在向高效、自适应推理收敛。Opus 4.7让模型自行决定推理深度。GPT-5.5用更少的推理令牌取得了强劲结果。我们研究了一个相关但更具结构性的问题：应该进行何种推理

@jinyuhou0: 在主流基准测试中，我们的30B模型与规模大20-30倍的系统（gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5）匹敌，而……

相似文章

@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…

为什么微博的迷你VibeThinker-3B再次引发AI界关于基准测试的争论（15分钟阅读）

@TheAhmadOsman: 天哪！27B模型低于6GB和4GB，本地AI将成为默认。附注：我们将尽快在ODS上由@OsmanticAI优化此功能…

@liquidai：推出LFM2.5-230M：这是我们最小的模型，专为快速运行而设计，可在任何地方（CPU、NPU和GPU）上运行，以实现代理型任务…

@LeonEnglaender: 我们核心代码团队只有8个人，我们的30B-A3B模型与Claude Haiku 4.5性能相当，并超越了NVIDIA…

提交意见反馈