@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持,而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

X AI KOLs Following 新闻

摘要

SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。

尽管 SGLang 为 DeepSeek-V4 提供了首日支持,但 @lmsysorg 与 @NVIDIAAI 工程团队的合作将其生产性能提升到了新高度。 根据公开的 SemiAnalysis InferenceX 仪表盘,GB300 分离式通道(DeepSeek-V4 Pro,FP4,8K/1K)在相同交互级别下吞吐量提升了 5 倍——从约 2,200 tok/s/GPU 飙升至约 11,200 tok/s/GPU。这些更新使得大部分部署目标交互范围内的吞吐量得以保持高水平,同时还推动了 Blackwell Ultra 聚合通道实现 2.9 倍的提升。 完整的技术细节请见下方评论:
查看原文
查看缓存全文

缓存时间: 2026/06/24 03:57

虽然 SGLang 在首发日即提供了对 DeepSeek-V4 的支持,但 @lmsysorg 与 @NVIDIAAI 工程团队的协作将其实战性能提升到了新高度。

根据公开的 SemiAnalysis InferenceX 仪表盘数据,GB300 解耦通道(DeepSeek-V4 Pro、FP4、8K/1K)在相同交互水平下,吞吐量实现了 5 倍提升——从约 2,200 tok/s/GPU 跃升至约 11,200 tok/s/GPU。这些更新使得在多数部署目标所关注的交互延迟区间内,系统能够持续保持高吞吐能力,同时在 Blackwell Ultra 聚合通道上也带来了 2.9 倍的提升。

完整技术细节见下方评论区:

相似文章

我在家运行了(更快的)DeepSeek V4 Pro

Reddit r/LocalLLaMA

用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。