@PyTorch：一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @l…

X AI KOLs Following 2026/06/25 15:30 工具

pytorch kernels gpu inference llm portable high-performance

摘要

TokenSpeed-Kernel是一个可移植、高性能的内核系统，用于LLM推理，实现零厂商特定模型代码，并支持多种GPU架构，在AMD MI355X上实现高达3.6倍的吞吐量提升。

一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @lightseekorg 介绍了TokenSpeed-Kernel，这是一个为现代LLM推理构建的可移植、高性能内核系统。以GPT-OSS 120B作为案例研究，他们展示了如何为@AIatAMD和@NVIDIAAI GPU定制的内核可以在一个通用API后无缝共存。这种统一的方法在AMD MI355X上实现了高达3.6倍的吞吐量提升，而无需对底层模型逻辑进行任何更改。博客链接见评论区

查看原文

查看缓存全文

缓存时间: 2026/06/25 19:25

一个运行时，多种 GPU 架构，零厂商定制模型代码。

在这篇博文中，TokenSpeed 团队 (@lightseekorg) 介绍了 TokenSpeed-Kernel，一个为现代 LLM 推理构建的可移植高性能内核系统。以 GPT-OSS 120B 为案例，他们展示了针对 @AIatAMD 和 @NVIDIAAI GPU 的专用内核如何通过通用 API 无缝共存。这种统一方法在 AMD MI355X 上实现了高达 3.6 倍的吞吐量提升，且无需对底层模型逻辑进行任何修改。

博文链接见评论区。

@PyTorch：一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @l…

相似文章

TokenSpeed：面向智能体工作负载的"光速"LLM推理引擎（5分钟阅读）

@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核，使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…

@PyTorch：ExecuTorch 现有一个 MLX 委托，可在 Apple Silicon GPU 上运行 PyTorch 模型。它支持大语言模型、语音转文字、以及……

TorchKM：面向GPU的核学习与模型选择库

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

提交意见反馈