标签
NVIDIA 发布 Star Elastic,这是一种新型 AI 架构,允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制,在保持准确性的同时显著降低了延迟和计算成本。