@h100envy: Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上为 Grok 服务,运行在十万个 GPU 上。她还构建了 Fle…

X AI KOLs Timeline 工具

摘要

Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务,相比 DeepSeek 的 API 实现了 5 倍的成本削减;她还构建了 FlexGen,并参与构建了 Chatbot Arena。

Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务。 她还构建了 FlexGen,它能让一个 1750 亿参数的模型在单个消费级 GPU 上运行,并参与构建了 Chatbot Arena。 整个领域都在使用的三个成果,来自一位研究者。SGLang 相比 DeepSeek 自己的 API 实现了 5 倍的成本削减,并且有十几个团队复现了它。 所有人都在争论模型。而她构建了真正能以足够低的成本提供服务以支撑生存的引擎。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:38

盛英是SGLang的合著者,该推理引擎如今在xAI的十万块GPU上为Grok提供支持。

她还构建了FlexGen,让一个1750亿参数的模型能在单块消费级GPU上运行,并协助搭建了Chatbot Arena。

整个领域使用的三件工具,出自同一位研究者之手。SGLang将成本压到DeepSeek自身API的五分之一,已有十余个团队复现了它。

所有人都在争论模型。而她构建的引擎,让这些模型真正能以足够低廉的成本部署并存活下来。

相似文章

@ying11231:在TPU上令人印象深刻的性能。

X AI KOLs Timeline

LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。