@h100envy: Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上为 Grok 服务，运行在十万个 GPU 上。她还构建了 Fle…

X AI KOLs Timeline 2026/06/19 15:56 工具

inference-engine sglang open-source cost-reduction large-language-models flexgen chatbot-arena

摘要

Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务，相比 DeepSeek 的 API 实现了 5 倍的成本削减；她还构建了 FlexGen，并参与构建了 Chatbot Arena。

Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务。她还构建了 FlexGen，它能让一个 1750 亿参数的模型在单个消费级 GPU 上运行，并参与构建了 Chatbot Arena。整个领域都在使用的三个成果，来自一位研究者。SGLang 相比 DeepSeek 自己的 API 实现了 5 倍的成本削减，并且有十几个团队复现了它。所有人都在争论模型。而她构建了真正能以足够低的成本提供服务以支撑生存的引擎。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:38

盛英是SGLang的合著者，该推理引擎如今在xAI的十万块GPU上为Grok提供支持。

她还构建了FlexGen，让一个1750亿参数的模型能在单块消费级GPU上运行，并协助搭建了Chatbot Arena。

整个领域使用的三件工具，出自同一位研究者之手。SGLang将成本压到DeepSeek自身API的五分之一，已有十余个团队复现了它。

所有人都在争论模型。而她构建的引擎，让这些模型真正能以足够低廉的成本部署并存活下来。

@h100envy: Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上为 Grok 服务，运行在十万个 GPU 上。她还构建了 Fle…

相似文章

@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持，而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

@charles_irl: 许多人迟来地意识到智能必须开放。开放智能要成功，开发者必须携手合…

@ying11231：在TPU上令人印象深刻的性能。

@rohanpaul_ai: Grok Build beta（驻留在终端中的智能编码代理）现已对所有 SuperGrok 和 X Premium+ 用户开放。

@seclink: https://x.com/seclink/status/2058544316587376710

提交意见反馈