@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS,期待他们...
摘要
Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。
查看缓存全文
缓存时间: 2026/05/24 10:27
Qwen 推理团队太棒了——他们在 TokenSpeed 上针对智能体工作负载实现了 540 TPS 🚀 期待他们尽快分享更多优化细节。敬请关注。https://t.co/R5W1RL7TTQ 享受吧!https://t.co/eZtNq1Hi3w — # lightseekorg/tokenspeed 来源:https://github.com/lightseekorg/tokenspeed TokenSpeed 是一个面向智能体工作负载的光速 LLM 推理引擎,兼具 TensorRT-LLM 级别的性能和 vLLM 级别的易用性。我们的目标是成为生产环境中智能体工作负载最高性能的推理引擎。 核心组件: - 建模层:本地 SPMD 设计,带静态编译器,可从模块边界放置注解生成集合通信,用户无需手写并行逻辑。 - 调度器:C++ 控制平面与 Python 执行平面。请求生命周期、KV 缓存所有权和重叠时序被编码为有限状态机,编译时通过类型系统强制安全重用 KV 资源。 - 内核:可插拔的分层内核系统,配备可移植公共 API 和集中式注册表,包含 Blackwell 上用于智能体工作负载的最快 MLA(多头潜在注意力)实现之一。 - 入口点:集成 SMG 的 AsyncLLM,用于低开销的 CPU 端请求处理。 ## 性能对比 ## 预览状态 本版本为预览版,用于复现 TokenSpeed 博客(https://lightseek.org/blog/lightseek-tokenspeed.html)中的 Kimi K2.5 on B200 和 TokenSpeed MLA on B200 结果。几个主要 PR 仍在进行中,尚未合并。正在进行的工作包括: - 模型覆盖:Qwen 3.6、DeepSeek V4 和 MiniMax M2.7。 - 运行时特性:PD、EPLB、KV 存储、Mamba 缓存、VLM 和指标。 - 平台优化:Hopper 优化、MI350 优化及相关运行时改进。 这些特性仍在整理中,将在未来几周内合并到 main 分支。TokenSpeed 当前正处于密集开发阶段,旨在展示新的运行时设计和技术方向。请勿将此预览版用于生产部署。 ## 文档 从这里开始: - 文档索引 (https://lightseek.org/tokenspeed/) - 入门指南 (https://lightseek.org/tokenspeed/guides/getting-started) - 启动服务器 (https://lightseek.org/tokenspeed/guides/launching) - 模型配方 (https://lightseek.org/tokenspeed/recipes/models) - 服务器参数 (https://lightseek.org/tokenspeed/configuration/server) - 兼容参数 (https://lightseek.org/tokenspeed/configuration/compatible-parameters) - 并行度 (https://lightseek.org/tokenspeed/serving/parallelism)
相似文章
Qwen3.7预览版登陆Arena(1分钟阅读)
阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。
成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
Qwen 3.6 在双 RTX PRO 6000 上的基准测试
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。