@jinyuhou0: 在主流基准测试中,我们的30B模型与规模大20-30倍的系统(gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)匹敌,而……

X AI KOLs Timeline 模型

摘要

一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的,该配置器决定何时以及如何进行推理。模型和代码已开放。

在主流基准测试中,我们的30B模型与规模大20-30倍的系统(gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。 诀窍:不仅仅是减少推理,而是对正确的事情进行推理。学习型配置器决定何时模拟、向前推演多远,以及何时完全跳过规划。 高效推理是分配问题,而非压缩问题。 模型和代码已开放。
查看原文
查看缓存全文

缓存时间: 2026/05/24 10:27

在主流基准测试中,我们的30B模型在性能上与规模大20-30倍的系统(如gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)持平,同时比同类30/32B智能体LLM减少多达95%的推理令牌。

诀窍在于:不仅要减少推理,还要推理正确的事项。一个经过学习的配置器决定何时进行模拟、模拟多远的未来,以及何时完全跳过规划。

高效推理是一个分配问题,而非压缩问题。

模型和代码已公开可用。

Mingkai Deng (@mdeng34):
前沿大语言模型正在向高效、自适应推理收敛。Opus 4.7让模型自行决定推理深度。GPT-5.5用更少的推理令牌取得了强劲结果。我们研究了一个相关但更具结构性的问题:应该进行何种推理

相似文章

微软的全新MAI模型

Simon Willison's Blog

微软宣布推出两款全新大语言模型(LLMs):MAI-Thinking-1(350亿参数推理模型)和MAI-Code-1-Flash(50亿参数代码模型)。两款模型均基于企业级、无污染的干净数据训练,且未使用第三方蒸馏技术。据称,在盲评中,MAI-Thinking-1的受欢迎程度超过了Sonnet 4.6。

@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。