@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS，期待他们...

X AI KOLs Timeline 2026/05/24 07:01 工具

inference-engine agentic-workloads qwen llm performance open-source tokenspeed

摘要

Qwen推理团队宣布了TokenSpeed，这是一个针对智能体工作负载的高性能LLM推理引擎，实现了540 TPS，并提供开源预览版。

Qwen推理团队太棒了——他们在TokenSpeed上针对智能体工作负载实现了540 TPS 🚀 期待他们尽快分享更多优化细节。敬请关注。 https://t.co/R5W1RL7TTQ 享受吧！https://t.co/eZtNq1Hi3w

查看原文

查看缓存全文

缓存时间: 2026/05/24 10:27

Qwen 推理团队太棒了——他们在 TokenSpeed 上针对智能体工作负载实现了 540 TPS 🚀 期待他们尽快分享更多优化细节。敬请关注。https://t.co/R5W1RL7TTQ 享受吧！https://t.co/eZtNq1Hi3w — # lightseekorg/tokenspeed 来源：https://github.com/lightseekorg/tokenspeed TokenSpeed 是一个面向智能体工作负载的光速 LLM 推理引擎，兼具 TensorRT-LLM 级别的性能和 vLLM 级别的易用性。我们的目标是成为生产环境中智能体工作负载最高性能的推理引擎。核心组件： - 建模层：本地 SPMD 设计，带静态编译器，可从模块边界放置注解生成集合通信，用户无需手写并行逻辑。 - 调度器：C++ 控制平面与 Python 执行平面。请求生命周期、KV 缓存所有权和重叠时序被编码为有限状态机，编译时通过类型系统强制安全重用 KV 资源。 - 内核：可插拔的分层内核系统，配备可移植公共 API 和集中式注册表，包含 Blackwell 上用于智能体工作负载的最快 MLA（多头潜在注意力）实现之一。 - 入口点：集成 SMG 的 AsyncLLM，用于低开销的 CPU 端请求处理。 ## 性能对比 ## 预览状态本版本为预览版，用于复现 TokenSpeed 博客（https://lightseek.org/blog/lightseek-tokenspeed.html）中的 Kimi K2.5 on B200 和 TokenSpeed MLA on B200 结果。几个主要 PR 仍在进行中，尚未合并。正在进行的工作包括： - 模型覆盖：Qwen 3.6、DeepSeek V4 和 MiniMax M2.7。 - 运行时特性：PD、EPLB、KV 存储、Mamba 缓存、VLM 和指标。 - 平台优化：Hopper 优化、MI350 优化及相关运行时改进。这些特性仍在整理中，将在未来几周内合并到 main 分支。TokenSpeed 当前正处于密集开发阶段，旨在展示新的运行时设计和技术方向。请勿将此预览版用于生产部署。 ## 文档从这里开始： - 文档索引 (https://lightseek.org/tokenspeed/) - 入门指南 (https://lightseek.org/tokenspeed/guides/getting-started) - 启动服务器 (https://lightseek.org/tokenspeed/guides/launching) - 模型配方 (https://lightseek.org/tokenspeed/recipes/models) - 服务器参数 (https://lightseek.org/tokenspeed/configuration/server) - 兼容参数 (https://lightseek.org/tokenspeed/configuration/compatible-parameters) - 并行度 (https://lightseek.org/tokenspeed/serving/parallelism)

@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS，期待他们...

相似文章

Qwen3.7预览版登陆Arena（1分钟阅读）

@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

Qwen 3.6 在双 RTX PRO 6000 上的基准测试

提交意见反馈