NVIDIA AI 发布 Star Elastic:一个检查点包含 30B、23B 和 12B 推理模型,支持零样本切片
摘要
NVIDIA 发布 Star Elastic,这是一种新型 AI 架构,允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制,在保持准确性的同时显著降低了延迟和计算成本。
我在另一个分区看到了这个,没见这里有人发,看起来很棒,肯定可以在本地运行。我想它是 11 天前发布的,但从未出现在我的信息流顶部(我看得太频繁了),所以再发一次。
# 这是我的看法:
把它想象成可伸缩视频编码,你有一个 UHD 流,但剥离一些层,你就有了 HD 或 SD 流,它都是单个文件流,而不是多个。就像嵌套模型,而不是 3 个不同的集合,它们可以共享 KV 缓存,所以模型可以像滑动标尺一样调整速度。你用 30B 模型得到一个想法,然后缩小规模,在 12B 模型上以 7000t/s 的速度排列所有思考,几秒钟生成一本推理书,然后滑回 30B 再次评估什么是好的。你可以让 30B 模型引导较小的模型来回切换。也许它在某种程度上是 Dense 和 MoE 之间的混合,它像 MoE,但有 3 个像俄罗斯套娃一样的密集模型。
# 原帖:
NVIDIA 刚刚发布了 Star Elastic——仅推理策略就值得理解。以下是技术方面真正有趣的地方:
1. 一个检查点。三个模型。Star Elastic 将后训练方法应用于 Nemotron Nano v3,嵌套的 23B 和 12B 子模型可以从父检查点 30B 中零样本提取。所有三个都存在于 BF16、FP8 和 NVFP4 的单个检查点中。
2. 路由学习架构,而不仅仅是权重。一个通过 Gumbel-Softmax 训练的可学习路由,将任何目标参数预算映射到所有弹性轴上的最佳嵌套配置——注意力头、Mamba SSM 头、MoE 专家、FFN 通道、嵌入维度。基于重要性的排序(对这些组件进行排序)在训练开始前计算。
3. 使用较小的模型进行思考。使用完整模型生成答案。这是我们发现最有趣的发现。弹性预算控制将 23B 子模型分配给思考阶段,将 30B 模型分配给最终答案。推理轨迹是高容量的,但能容忍较低的容量。最终答案是低容量的,但需要精度。使模型大小与阶段复杂性相匹配可得:
→ 与标准预算控制相比准确率 +16%
→ 延迟降低 1.9 倍
在 AIME-2025、GPQA、LiveCodeBench v5 和 MMLU-Pro 上测量。
4. 成本降低显著。
→ 与从头开始预训练每个变体相比 token 减少 360 倍
→ 与最先进的顺序压缩相比 token 减少 7 倍
→ 23B 和 12B 嵌套模型匹配或优于相当规模的独立训练基线
5. 硬件可访问性。12B NVFP4 变体在 RTX 5080 上运行,而每个 BF16 配置都会内存不足。在 RTX Pro 6000 上,它达到 7,426 tokens/s——是 30B BF16 基线吞吐量的 3.4 倍。
在此处阅读完整分析,其中还包含交互式逐步代码指南:https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/
BF16 中的 3 合 1 模型:https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16
FP8 中的 3 合 1 模型:https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-FP8
NVFP4 中的 3 合 1 模型:https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-NVFP4
相关论文:https://arxiv.org/abs/2511.16664
还有一个名为 "Star Elastic: Many-in-One Reasoning {LLMs} with Efficient Budget Control" 的新论文,但我找不到。
相似文章
@dhruvtwt_:怎么没人聊这事?@nvidia 正免费提供约 80 款 AI 模型的托管 API
Nvidia 低调开放约 80 款免费托管 AI 模型 API,包括 MiniMax M2.7、GLM 5.1、Kimi 2.5、DeepSeek 3.2、GPT-OSS-120B 等,可直接接入 OpenClaude、Zed IDE 等主流开发工具。
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
@k1rallik:NVIDIA 真的在免费送 AI 推理!我 5 分钟搞定,完全不敢相信是免费的 D…
NVIDIA 通过 DGX Cloud 提供免费的 AI 推理,支持 DeepSeek、MiniMax、Kimi、GLM、Llama 等热门模型,API 兼容 OpenAI,5 分钟即可领取。
OpenAI o1-mini
OpenAI 发布了 o1-mini,一款成本高效的推理模型,在数学和编码等 STEM 任务上与 o1 性能相当,但价格便宜 80%。该模型针对推理密集型应用进行了优化,现已向 API 用户和 ChatGPT Plus/Team/Enterprise/Edu 订阅者开放。