@h100envy: Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上为 Grok 服务,运行在十万个 GPU 上。她还构建了 Fle…
摘要
Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务,相比 DeepSeek 的 API 实现了 5 倍的成本削减;她还构建了 FlexGen,并参与构建了 Chatbot Arena。
查看缓存全文
缓存时间: 2026/06/20 14:38
盛英是SGLang的合著者,该推理引擎如今在xAI的十万块GPU上为Grok提供支持。
她还构建了FlexGen,让一个1750亿参数的模型能在单块消费级GPU上运行,并协助搭建了Chatbot Arena。
整个领域使用的三件工具,出自同一位研究者之手。SGLang将成本压到DeepSeek自身API的五分之一,已有十余个团队复现了它。
所有人都在争论模型。而她构建的引擎,让这些模型真正能以足够低廉的成本部署并存活下来。
相似文章
@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持,而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…
SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。
@charles_irl: 许多人迟来地意识到智能必须开放。开放智能要成功,开发者必须携手合…
Modal、SGLang 和 Z Lab 之间的合作将 DFlash 推测方案集成到 SGLang 中,为阿里巴巴的 Qwen 397B-A17B 模型实现了高达 4.3 倍的吞吐量提升,推动了开放智能的发展。
@ying11231:在TPU上令人印象深刻的性能。
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
@rohanpaul_ai: Grok Build beta(驻留在终端中的智能编码代理)现已对所有 SuperGrok 和 X Premium+ 用户开放。
xAI 的 Grok Build 是一款终端智能编码代理,现已向 SuperGrok 和 X Premium+ 用户开放 beta 版,支持自然语言代码生成、规划模式、并行子代理以及图像/视频生成。
@seclink: https://x.com/seclink/status/2058544316587376710
YC CEO Gary推出开源AI编程框架GStack,采用薄框架厚能力的思路,将Claude Code改造为自动化的AI开发团队,大幅降低软件开发门槛,三周内GitHub星标超7万。