@jinyuhou0: 在主流基准测试中,我们的30B模型与规模大20-30倍的系统(gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)匹敌,而……
摘要
一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的,该配置器决定何时以及如何进行推理。模型和代码已开放。
查看缓存全文
缓存时间: 2026/05/24 10:27
在主流基准测试中,我们的30B模型在性能上与规模大20-30倍的系统(如gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)持平,同时比同类30/32B智能体LLM减少多达95%的推理令牌。
诀窍在于:不仅要减少推理,还要推理正确的事项。一个经过学习的配置器决定何时进行模拟、模拟多远的未来,以及何时完全跳过规划。
高效推理是一个分配问题,而非压缩问题。
模型和代码已公开可用。
Mingkai Deng (@mdeng34):
前沿大语言模型正在向高效、自适应推理收敛。Opus 4.7让模型自行决定推理深度。GPT-5.5用更少的推理令牌取得了强劲结果。我们研究了一个相关但更具结构性的问题:应该进行何种推理
相似文章
@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…
新研究引入了SR²AM,这是一种自调节何时使用模拟推理的配置器,提升了LLM的效率和性能。
@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数,3.6B 活跃参数(MoE)。OpenAI,Apache 2.0。仅使用 1.8 GB 显存…
一个全新的开源 MoE 模型,gpt-oss-20b(总共 21B,活跃 3.6B),仅需 1.8GB 显存即可运行,并在代理编程任务上获得满分,性能优于其他本地模型(如 Gemma 和 Qwen)。
Liquid AI 发布基于 38T 训练的 8B-A1B MoE 模型
Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘 MoE 模型,基于 38T tokens 训练,拥有 128K 上下文窗口,改进了工具调用和推理能力,可在 Hugging Face 上获取。
微软的全新MAI模型
微软宣布推出两款全新大语言模型(LLMs):MAI-Thinking-1(350亿参数推理模型)和MAI-Code-1-Flash(50亿参数代码模型)。两款模型均基于企业级、无污染的干净数据训练,且未使用第三方蒸馏技术。据称,在盲评中,MAI-Thinking-1的受欢迎程度超过了Sonnet 4.6。
@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…
一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。