@ying11231:在TPU上令人印象深刻的性能。
摘要
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
查看缓存全文
缓存时间: 2026/06/17 22:03
在 TPU 上表现卓越。
LMSYS Org (@lmsysorg): 🚀 我们的新博客:使用 SGLang-JAX 在 TPU 上优化 Ling-2.6-1T:用一个 Pallas Kernel 将 MoE 数据移动隐藏在计算背后
Ling-2.6-1T,一个 1T 混合 MoE 模型,现已通过 SGLang-JAX 在 TPU v7x 上提供服务。SGLang-JAX 团队与 @inclusionAI 在两个方面合作:
相似文章
@leloykun:[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文:
一篇技术博文介绍了一种 Lean4-to-TileLang 张量程序超级优化器,能自动生成优化的 GPU/TPU 内核与超参数缩放规律,展示了相较 torch.compile 的性能提升。
@hank_aibtc: 家人们,本地 LLM太香了! 刷到 Hugging Face 上这个 gpt-oss-20b-tq3,真的有点上头! OpenAI 官方开源的 20B+ 参数 MoE 模型,被社区用 TurboQuant 3-bit 量化 + MLX 优…
The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.
@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数,3.6B 活跃参数(MoE)。OpenAI,Apache 2.0。仅使用 1.8 GB 显存…
一个全新的开源 MoE 模型,gpt-oss-20b(总共 21B,活跃 3.6B),仅需 1.8GB 显存即可运行,并在代理编程任务上获得满分,性能优于其他本地模型(如 Gemma 和 Qwen)。
@ItsmeAjayKV: 3090 更新:现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s,尚未启用 MTP,预填充速度…
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作,将 DFlash 规范集成到 @sgl_project,并通过重叠加速……
Modal 与 LMSys 和 Z Lab 合作,将 DFlash 推测解码集成到 SGLang,在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升,比原生多 token 预测提升 1.5 倍。