@ying11231：在TPU上令人印象深刻的性能。

X AI KOLs Timeline 2026/06/17 18:12 模型

tpu moe mixture-of-experts sglang-jax ling-model optimization inference

摘要

LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（一个 1 万亿参数的混合 MoE 模型），通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后，从而实现高效的推理。

在TPU上令人印象深刻的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/17 22:03

在 TPU 上表现卓越。

LMSYS Org (@lmsysorg): 🚀 我们的新博客：使用 SGLang-JAX 在 TPU 上优化 Ling-2.6-1T：用一个 Pallas Kernel 将 MoE 数据移动隐藏在计算背后

Ling-2.6-1T，一个 1T 混合 MoE 模型，现已通过 SGLang-JAX 在 TPU v7x 上提供服务。SGLang-JAX 团队与 @inclusionAI 在两个方面合作：

相似文章

@leloykun：[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文：

X AI KOLs Following

一篇技术博文介绍了一种 Lean4-to-TileLang 张量程序超级优化器，能自动生成优化的 GPU/TPU 内核与超参数缩放规律，展示了相较 torch.compile 的性能提升。

@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

X AI KOLs Timeline

The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

X AI KOLs Timeline

一个全新的开源 MoE 模型，gpt-oss-20b（总共 21B，活跃 3.6B），仅需 1.8GB 显存即可运行，并在代理编程任务上获得满分，性能优于其他本地模型（如 Gemma 和 Qwen）。

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

X AI KOLs Timeline

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型，实现了超过 90 tokens/s 的推理速度，预填充速度超过 1000 t/s，表明在消费级硬件上本地部署大型语言模型是可行的。

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

X AI KOLs Following

Modal 与 LMSys 和 Z Lab 合作，将 DFlash 推测解码集成到 SGLang，在大型语言模型上实现了相比基准最高 4.3 倍的吞吐量提升，比原生多 token 预测提升 1.5 倍。

相似文章

@leloykun：[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文：

@hank_aibtc: 家人们，本地 LLM太香了！ 刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

@witcheer: 难以置信 gpt-oss-20b 在 8GB 显存上的表现。21B 总参数，3.6B 活跃参数（MoE）。OpenAI，Apache 2.0。仅使用 1.8 GB 显存…

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

@modal: 我们与 @lmsysorg 和 http://z-lab.ai 合作，将 DFlash 规范集成到 @sgl_project，并通过重叠加速……

提交意见反馈

@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…