@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持,而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…
摘要
SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。
查看缓存全文
缓存时间: 2026/06/24 03:57
虽然 SGLang 在首发日即提供了对 DeepSeek-V4 的支持,但 @lmsysorg 与 @NVIDIAAI 工程团队的协作将其实战性能提升到了新高度。
根据公开的 SemiAnalysis InferenceX 仪表盘数据,GB300 解耦通道(DeepSeek-V4 Pro、FP4、8K/1K)在相同交互水平下,吞吐量实现了 5 倍提升——从约 2,200 tok/s/GPU 跃升至约 11,200 tok/s/GPU。这些更新使得在多数部署目标所关注的交互延迟区间内,系统能够持续保持高吞吐能力,同时在 Blackwell Ultra 聚合通道上也带来了 2.9 倍的提升。
完整技术细节见下方评论区:
相似文章
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。
我在家运行了(更快的)DeepSeek V4 Pro
用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。
@0xSero: Deepseek-V4-Flash 帮助我设置 Nvidia 的 Dynamo 进行分离推理。我已经让这个模型成为…
用户 @0xSero 分享说 Deepseek-V4-Flash 正在帮助他们设置 Nvidia 的 Dynamo 进行分离推理,他们发现它在代理工作流和编程方面非常强大,现在已经在本地使用它替代了 Claude。
@h100envy: Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上为 Grok 服务,运行在十万个 GPU 上。她还构建了 Fle…
Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务,相比 DeepSeek 的 API 实现了 5 倍的成本削减;她还构建了 FlexGen,并参与构建了 Chatbot Arena。
@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。