NVIDIA AI 发布 Star Elastic：一个检查点包含 30B、23B 和 12B 推理模型，支持零样本切片

Reddit r/LocalLLaMA 2026/05/10 00:48 模型

nvidia llm model-release efficient-inference elastic-models reasoning nested-architecture

摘要

NVIDIA 发布 Star Elastic，这是一种新型 AI 架构，允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制，在保持准确性的同时显著降低了延迟和计算成本。

我在另一个分区看到了这个，没见这里有人发，看起来很棒，肯定可以在本地运行。我想它是 11 天前发布的，但从未出现在我的信息流顶部（我看得太频繁了），所以再发一次。 # 这是我的看法：把它想象成可伸缩视频编码，你有一个 UHD 流，但剥离一些层，你就有了 HD 或 SD 流，它都是单个文件流，而不是多个。就像嵌套模型，而不是 3 个不同的集合，它们可以共享 KV 缓存，所以模型可以像滑动标尺一样调整速度。你用 30B 模型得到一个想法，然后缩小规模，在 12B 模型上以 7000t/s 的速度排列所有思考，几秒钟生成一本推理书，然后滑回 30B 再次评估什么是好的。你可以让 30B 模型引导较小的模型来回切换。也许它在某种程度上是 Dense 和 MoE 之间的混合，它像 MoE，但有 3 个像俄罗斯套娃一样的密集模型。 # 原帖： NVIDIA 刚刚发布了 Star Elastic——仅推理策略就值得理解。以下是技术方面真正有趣的地方： 1. 一个检查点。三个模型。Star Elastic 将后训练方法应用于 Nemotron Nano v3，嵌套的 23B 和 12B 子模型可以从父检查点 30B 中零样本提取。所有三个都存在于 BF16、FP8 和 NVFP4 的单个检查点中。 2. 路由学习架构，而不仅仅是权重。一个通过 Gumbel-Softmax 训练的可学习路由，将任何目标参数预算映射到所有弹性轴上的最佳嵌套配置——注意力头、Mamba SSM 头、MoE 专家、FFN 通道、嵌入维度。基于重要性的排序（对这些组件进行排序）在训练开始前计算。 3. 使用较小的模型进行思考。使用完整模型生成答案。这是我们发现最有趣的发现。弹性预算控制将 23B 子模型分配给思考阶段，将 30B 模型分配给最终答案。推理轨迹是高容量的，但能容忍较低的容量。最终答案是低容量的，但需要精度。使模型大小与阶段复杂性相匹配可得： → 与标准预算控制相比准确率 +16% → 延迟降低 1.9 倍在 AIME-2025、GPQA、LiveCodeBench v5 和 MMLU-Pro 上测量。 4. 成本降低显著。 → 与从头开始预训练每个变体相比 token 减少 360 倍 → 与最先进的顺序压缩相比 token 减少 7 倍 → 23B 和 12B 嵌套模型匹配或优于相当规模的独立训练基线 5. 硬件可访问性。12B NVFP4 变体在 RTX 5080 上运行，而每个 BF16 配置都会内存不足。在 RTX Pro 6000 上，它达到 7,426 tokens/s——是 30B BF16 基线吞吐量的 3.4 倍。在此处阅读完整分析，其中还包含交互式逐步代码指南：https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/ BF16 中的 3 合 1 模型：https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-BF16 FP8 中的 3 合 1 模型：https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-FP8 NVFP4 中的 3 合 1 模型：https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-NVFP4 相关论文：https://arxiv.org/abs/2511.16664 还有一个名为 "Star Elastic: Many-in-One Reasoning {LLMs} with Efficient Budget Control" 的新论文，但我找不到。

查看原文

NVIDIA AI 发布 Star Elastic：一个检查点包含 30B、23B 和 12B 推理模型，支持零样本切片

相似文章

@dhruvtwt_：怎么没人聊这事？@nvidia 正免费提供约 80 款 AI 模型的托管 API

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

@k1rallik：NVIDIA 真的在免费送 AI 推理！我 5 分钟搞定，完全不敢相信是免费的 D…

OpenAI o1-mini

提交意见反馈