@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS,期待他们...

X AI KOLs Timeline 工具

摘要

Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。

Qwen推理团队太棒了——他们在TokenSpeed上针对智能体工作负载实现了540 TPS 🚀 期待他们尽快分享更多优化细节。敬请关注。 https://t.co/R5W1RL7TTQ 享受吧!https://t.co/eZtNq1Hi3w
查看原文
查看缓存全文

缓存时间: 2026/05/24 10:27

Qwen 推理团队太棒了——他们在 TokenSpeed 上针对智能体工作负载实现了 540 TPS 🚀 期待他们尽快分享更多优化细节。敬请关注。https://t.co/R5W1RL7TTQ 享受吧!https://t.co/eZtNq1Hi3w — # lightseekorg/tokenspeed 来源:https://github.com/lightseekorg/tokenspeed TokenSpeed 是一个面向智能体工作负载的光速 LLM 推理引擎,兼具 TensorRT-LLM 级别的性能和 vLLM 级别的易用性。我们的目标是成为生产环境中智能体工作负载最高性能的推理引擎。 核心组件: - 建模层:本地 SPMD 设计,带静态编译器,可从模块边界放置注解生成集合通信,用户无需手写并行逻辑。 - 调度器:C++ 控制平面与 Python 执行平面。请求生命周期、KV 缓存所有权和重叠时序被编码为有限状态机,编译时通过类型系统强制安全重用 KV 资源。 - 内核:可插拔的分层内核系统,配备可移植公共 API 和集中式注册表,包含 Blackwell 上用于智能体工作负载的最快 MLA(多头潜在注意力)实现之一。 - 入口点:集成 SMG 的 AsyncLLM,用于低开销的 CPU 端请求处理。 ## 性能对比 ## 预览状态 本版本为预览版,用于复现 TokenSpeed 博客(https://lightseek.org/blog/lightseek-tokenspeed.html)中的 Kimi K2.5 on B200 和 TokenSpeed MLA on B200 结果。几个主要 PR 仍在进行中,尚未合并。正在进行的工作包括: - 模型覆盖:Qwen 3.6、DeepSeek V4 和 MiniMax M2.7。 - 运行时特性:PD、EPLB、KV 存储、Mamba 缓存、VLM 和指标。 - 平台优化:Hopper 优化、MI350 优化及相关运行时改进。 这些特性仍在整理中,将在未来几周内合并到 main 分支。TokenSpeed 当前正处于密集开发阶段,旨在展示新的运行时设计和技术方向。请勿将此预览版用于生产部署。 ## 文档 从这里开始: - 文档索引 (https://lightseek.org/tokenspeed/) - 入门指南 (https://lightseek.org/tokenspeed/guides/getting-started) - 启动服务器 (https://lightseek.org/tokenspeed/guides/launching) - 模型配方 (https://lightseek.org/tokenspeed/recipes/models) - 服务器参数 (https://lightseek.org/tokenspeed/configuration/server) - 兼容参数 (https://lightseek.org/tokenspeed/configuration/compatible-parameters) - 并行度 (https://lightseek.org/tokenspeed/serving/parallelism)

相似文章

Qwen3.7预览版登陆Arena(1分钟阅读)

TLDR AI

阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。