TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
摘要
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
TokenSpeed是一款高性能LLM推理引擎,通过编译器驱动的建模机制和高性能调度器,以"光速"效率优化智能体工作负载。它在代码智能体场景中的吞吐量优于TensorRT-LLM,并通过TokenSpeed MLA等优化技术提升Nvidia Blackwell的性能。TokenSpeed与NVIDIA DevTech及其他合作方共同开发,显著降低了典型智能体工作负载的延迟并提升了吞吐量。
查看缓存全文
缓存时间: 2026/05/08 09:21
# TokenSpeed:面向智能体工作负载的极速 LLM 推理引擎
来源:https://lightseek.org/blog/lightseek-tokenspeed.html
智能体编程已从 promising demo 迅速发展为重塑软件开发方式以及前沿 AI 系统构建与部署模式的重要力量。Claude Code、Codex 和 Cursor 等系统获得了大规模用户采用,现在生成的 token 数量极为庞大。为满足这一增长需求,需要数十吉瓦电力支持的数据中心正在建设中,背后有数千亿美元的投资支撑。
在这一规模下, orchestrating 模型推理的系统效率变得至关重要。即使每 GPU 吞吐量的微小提升,当应用于整个生产集群时,也能转化为可观的容量节约,同时满足不断增长的需求。
## TokenSpeed 概览 (https://lightseek.org/blog/lightseek-tokenspeed.html#tokenspeed-overview)
TokenSpeed (https://github.com/lightseekorg/tokenspeed) 从第一性原理出发,专为智能体推理场景设计。它为智能体工作负载提供*光速级*推理,具备*基于编译器的并行建模机制、高性能调度器、安全的 KV 资源复用约束、支持异构加速器的可插拔分层内核系统*,以及与 SMG (https://pytorch.org/blog/lightseek-smg/) 集成的低开销 CPU 侧请求入口点。
其建模层 (https://github.com/lightseekorg/tokenspeed/tree/main/python/tokenspeed/runtime/models/base) 采用本地 SPMD(单程序多数据)设计,在性能和易用性之间取得平衡。TokenSpeed 允许开发者在模块边界指定 I/O 放置注解。轻量级静态编译器随后自动在模型构建期间生成所需的集合通信操作,无需手动实现通信逻辑。
TokenSpeed 调度器 (https://github.com/lightseekorg/tokenspeed/tree/main/tokenspeed-scheduler) 将控制平面与执行平面解耦。控制平面使用 C++ 实现为有限状态机,与类型系统协同工作,在编译时而非运行时强制执行安全的资源管理,包括 KV 缓存状态转移和使用。请求生命周期、KV 缓存资源和重叠时序通过显式的 FSM 转换和所有权语义来表示,因此正确性由可验证的控制系统而非约定来保证。执行平面使用 Python 实现以保持开发效率,实现更快的功能迭代和更低的研究人员与工程师认知负担。
TokenSpeed 内核层 (https://github.com/lightseekorg/tokenspeed/tree/main/tokenspeed-kernel) 将内核与核心引擎分离,将其视为一等模块化子系统。它提供可移植的公共 API、集中化的注册与选择模型、有组织的实现、用于异构加速器的可扩展插件机制、精选依赖项,以及支持快速迭代的统一基础设施。我们还在 NVIDIA Blackwell 上大力投入性能优化——例如,我们构建了面向智能体工作负载的最快 MLA (Multi-head Latent Attention) 内核 (https://github.com/lightseekorg/tokenspeed/tree/main/tokenspeed-mla) 之一。在解码内核中,我们将 q_seqlen 和 num_heads 分组以充分利用 Tensor Core,因为在这些用例中 num_heads 较小。二元预填充内核包含经过精细调优的 softmax 实现。TokenSpeed MLA (https://github.com/lightseekorg/tokenspeed/tree/main/tokenspeed-mla) 已被 vLLM (https://github.com/vllm-project/vllm/pull/41778) 采用。
## 性能预览 (https://lightseek.org/blog/lightseek-tokenspeed.html#performance-preview)
今天,我们分享 TokenSpeed 的性能预览。开发工作于 2026 年 3 月中旬启动。*引擎和内核仍在积极开发中,生产加固计划在未来一个月内完成。预计未来几周将有更多 PR 合并。*
编码智能体带来了异常苛刻的推理工作负载。上下文通常超过 50K token,对话经常跨越数十轮。大多数公开基准测试无法完全捕捉这种行为。我们与 EvalScope (https://github.com/modelscope/evalscope) 团队合作,针对 SWE-smith 轨迹评估 TokenSpeed,该轨迹紧密反映了生产环境中的编码智能体流量。由于生成速度对智能体的用户体验至关重要,我们的目标是在*保持每用户 TPS(每秒 token 数)下限*——通常为 70 TPS,有时 200 TPS 或更高——的同时,*最大化每 GPU TPM(每分钟 token 数)*。
我们将我们的设计 (https://github.com/lightseekorg/tokenspeed/tree/main/test/agentic_benchmark) 与 TensorRT-LLM——NVIDIA Blackwell 上的当前最先进技术——进行了基准测试,并在我们认为对智能体工作负载存在更好权衡的地方采用了不同的方法。
> **注意:** 本博客聚焦于单节点(非分离式)部署。PD 分离支持正在进行清理,我们将在后续的专门博客中介绍。
下图展示了 Kimi K2.5 在不同部署配置下(不使用 PD 分离)TokenSpeed 和 TensorRT-LLM 的性能帕累托曲线。每条曲线以 TPS/User(x 轴)作为延迟指标,以 TPM/GPU(y 轴)作为吞吐量指标,通过扫描并发度绘制。对于编码智能体(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4,TokenSpeed 在整个帕累托前沿上均优于 TensorRT-LLM:在最小延迟情况下(batch size 为 1)快约 9%,在约 100 TPS/User 时吞吐量高约 11%。
TokenSpeed 与 TensorRT-LLM 在智能体工作负载和 NVIDIA B200 上的性能帕累托曲线对比
我们的核心优化之一是 TokenSpeed MLA (https://github.com/lightseekorg/tokenspeed/tree/main/tokenspeed-mla)。下图将 TokenSpeed MLA 与 TensorRT-LLM 的 MLA(NVIDIA Blackwell 上的当前 SoTA)进行了比较。我们的优化二进制版本预填充内核使用 NVIDIA 内部参数精细调优 softmax 实现,在编码智能体的五种典型预填充工作负载(具有长前缀 KV 缓存的预填充)上均优于 TensorRT-LLM 的 MLA。解码内核将查询序列轴折叠到头轴以更好地填充 BMM1 `M` 瓦片,提高 Tensor Core 利用率。结合其他优化,这在典型解码工作负载上使用推测解码(batch size 为 4、8 和 16 且带有长前缀 KV 缓存)时,相对于 TensorRT-LLM 几乎将延迟降低了一半。
TokenSpeed MLA 预填充和解码性能与 TensorRT LLM MLA 的比较
## 致谢 (https://lightseek.org/blog/lightseek-tokenspeed.html#acknowledgments)
TokenSpeed 与 NVIDIA DevTech、AMD Triton、Qwen Inference、Together AI、Mooncake、LongCat、FluentLLM、EvalScope、NVIDIA Dynamo 和 LightSeek Foundation 合作开发。[[1]](https://lightseek.org/blog/lightseek-tokenspeed.html#fn1)
我们感谢 TensorRT-LLM 维护者,他们的工作为我们设立了衡量标准。我们的许多优化都受到 TensorRT-LLM 的启发,包括单 CUDA 图优化和前向传播优化。我们也感谢更广泛的开源推理社区——包括 Triton、FluentLLM、vLLM、EvalScope、FlashInfer、SGLang 等——为提升生产级 LLM 服务的天花板所做的工作。
我们感谢 OpenAI、NVIDIA、AMD、Verda 和 Nebius 提供的计算支持。
---
---
1. **贡献者** **共同创造者:** Enwei Zhu, Jiying Dong, Xipeng Li (NVIDIA) · Pengzhan Zhao, Kyle Wang, Lei Zhang (AMD) · Jiandong Jiang, Tuan Zhang, Minmin Sun (Qwen Inference) · Jue Wang, Yineng Zhang (Together AI) · Hongtao Chen, Mingxing Zhang (Mooncake) · Bo Wang, Fengcun Li (LongCat) · Xiangyang Ji, Yulei Qian (FluentLLM)。**核心运行时:** 调度器 — Yulei Qian, Fengcun Li, Bo Wang。内核 — Lei Zhang, Pengzhan Zhao, Kyle Wang。建模 — Yulei Qian, Xiangyang Ji, Jue Wang。MLA — Albert Di, Jiying Dong。语法和采样 — Jue Wang, Weicong Wu。MoE — Hongtao Chen。VLM — Hongtao Chen, Fengcun Li, Bo Wang。**模型优化:** Kimi K2.5 光速优化 — Enwei Zhu, Jiying Dong, Yue Weng, Albert Di。Qwen 3.6 — Minmin Sun, Tuan Zhang, Jiandong Jiang。DeepSeek V4 — Jiying Dong, Qingquan Song, Qiukai Chen, Yechan Kim, Hejian Sang。AMD 上的 GPT-OSS — Pengzhan Zhao, Kyle Wang。Minimax M2.7 — Fan Yin, Jue Wang。**系统与集成:** 分布式运行时 — Xuchun Shang, Teng Ma。推测解码 — Yue Weng。AsyncLLM 和 SMG — Simo Lin, Keyang Ru, Xipeng Guan。TensorRT-LLM 内核 — Aaron Liu, Enwei Zhu。指标 — Fred Wang。EvalScope 基准测试 — Xingjun Wang, Yunlin Mao。Dynamo 集成 — Yuewei Na, William Arnold。[↩︎](https://lightseek.org/blog/lightseek-tokenspeed.html#fnref1)
相似文章
AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS,期待他们...
Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。
@PyTorch:一个运行时,多种GPU架构,零厂商特定模型代码。在这篇博文中,TokenSpeed团队 @l…
TokenSpeed-Kernel是一个可移植、高性能的内核系统,用于LLM推理,实现零厂商特定模型代码,并支持多种GPU架构,在AMD MI355X上实现高达3.6倍的吞吐量提升。
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
N tokens per second 到底有多快?
一个网页工具,让用户直观体验不同LLM token生成速率(例如5–800 tok/s)在代码、文本、推理和智能体模式下的表现,帮助内化基准测试中的性能数据。