@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持，而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

X AI KOLs Following 2026/06/23 16:00 新闻

deepseek-v4 sglang nvidia lmsys throughput inference production

摘要

SGLang 为 DeepSeek-V4 提供了首日支持，LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升，相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。

尽管 SGLang 为 DeepSeek-V4 提供了首日支持，但 @lmsysorg 与 @NVIDIAAI 工程团队的合作将其生产性能提升到了新高度。根据公开的 SemiAnalysis InferenceX 仪表盘，GB300 分离式通道（DeepSeek-V4 Pro，FP4，8K/1K）在相同交互级别下吞吐量提升了 5 倍——从约 2,200 tok/s/GPU 飙升至约 11,200 tok/s/GPU。这些更新使得大部分部署目标交互范围内的吞吐量得以保持高水平，同时还推动了 Blackwell Ultra 聚合通道实现 2.9 倍的提升。完整的技术细节请见下方评论：

查看原文

查看缓存全文

缓存时间: 2026/06/24 03:57

虽然 SGLang 在首发日即提供了对 DeepSeek-V4 的支持，但 @lmsysorg 与 @NVIDIAAI 工程团队的协作将其实战性能提升到了新高度。

根据公开的 SemiAnalysis InferenceX 仪表盘数据，GB300 解耦通道（DeepSeek-V4 Pro、FP4、8K/1K）在相同交互水平下，吞吐量实现了 5 倍提升——从约 2,200 tok/s/GPU 跃升至约 11,200 tok/s/GPU。这些更新使得在多数部署目标所关注的交互延迟区间内，系统能够持续保持高吞吐能力，同时在 Blackwell Ultra 聚合通道上也带来了 2.9 倍的提升。

完整技术细节见下方评论区：

@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持，而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

相似文章

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

我在家运行了（更快的）DeepSeek V4 Pro

@0xSero: Deepseek-V4-Flash 帮助我设置 Nvidia 的 Dynamo 进行分离推理。我已经让这个模型成为…

@h100envy: Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上为 Grok 服务，运行在十万个 GPU 上。她还构建了 Fle…

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

提交意见反馈