@ying11231:在TPU上令人印象深刻的性能。

X AI KOLs Timeline 模型

摘要

LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。

在TPU上令人印象深刻的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/17 22:03

在 TPU 上表现卓越。

LMSYS Org (@lmsysorg): 🚀 我们的新博客:使用 SGLang-JAX 在 TPU 上优化 Ling-2.6-1T:用一个 Pallas Kernel 将 MoE 数据移动隐藏在计算背后

Ling-2.6-1T,一个 1T 混合 MoE 模型,现已通过 SGLang-JAX 在 TPU v7x 上提供服务。SGLang-JAX 团队与 @inclusionAI 在两个方面合作:

相似文章