@PyTorch:一个运行时,多种GPU架构,零厂商特定模型代码。在这篇博文中,TokenSpeed团队 @l…

X AI KOLs Following 工具

摘要

TokenSpeed-Kernel是一个可移植、高性能的内核系统,用于LLM推理,实现零厂商特定模型代码,并支持多种GPU架构,在AMD MI355X上实现高达3.6倍的吞吐量提升。

一个运行时,多种GPU架构,零厂商特定模型代码。 在这篇博文中,TokenSpeed团队 @lightseekorg 介绍了TokenSpeed-Kernel,这是一个为现代LLM推理构建的可移植、高性能内核系统。以GPT-OSS 120B作为案例研究,他们展示了如何为@AIatAMD和@NVIDIAAI GPU定制的内核可以在一个通用API后无缝共存。这种统一的方法在AMD MI355X上实现了高达3.6倍的吞吐量提升,而无需对底层模型逻辑进行任何更改。 博客链接见评论区
查看原文
查看缓存全文

缓存时间: 2026/06/25 19:25

一个运行时,多种 GPU 架构,零厂商定制模型代码。

在这篇博文中,TokenSpeed 团队 (@lightseekorg) 介绍了 TokenSpeed-Kernel,一个为现代 LLM 推理构建的可移植高性能内核系统。以 GPT-OSS 120B 为案例,他们展示了针对 @AIatAMD 和 @NVIDIAAI GPU 的专用内核如何通过通用 API 无缝共存。这种统一方法在 AMD MI355X 上实现了高达 3.6 倍的吞吐量提升,且无需对底层模型逻辑进行任何修改。

博文链接见评论区。

相似文章

TorchKM:面向GPU的核学习与模型选择库

arXiv cs.LG

TorchKM是一个开源的GPU加速核机器库(支持向量机、核逻辑回归等),采用scikit-learn风格的API。通过重用矩阵运算加速训练和模型选择,相比标准基线实现了显著的加速比。

使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning

作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。