@PyTorch:一个运行时,多种GPU架构,零厂商特定模型代码。在这篇博文中,TokenSpeed团队 @l…
摘要
TokenSpeed-Kernel是一个可移植、高性能的内核系统,用于LLM推理,实现零厂商特定模型代码,并支持多种GPU架构,在AMD MI355X上实现高达3.6倍的吞吐量提升。
查看缓存全文
缓存时间: 2026/06/25 19:25
一个运行时,多种 GPU 架构,零厂商定制模型代码。
在这篇博文中,TokenSpeed 团队 (@lightseekorg) 介绍了 TokenSpeed-Kernel,一个为现代 LLM 推理构建的可移植高性能内核系统。以 GPT-OSS 120B 为案例,他们展示了针对 @AIatAMD 和 @NVIDIAAI GPU 的专用内核如何通过通用 API 无缝共存。这种统一方法在 AMD MI355X 上实现了高达 3.6 倍的吞吐量提升,且无需对底层模型逻辑进行任何修改。
博文链接见评论区。
相似文章
TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核,使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…
Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。
@PyTorch:ExecuTorch 现有一个 MLX 委托,可在 Apple Silicon GPU 上运行 PyTorch 模型。它支持大语言模型、语音转文字、以及……
ExecuTorch 现有一个 MLX 委托,可在 Apple Silicon Mac 上为 PyTorch 模型提供 GPU 加速推理,支持大语言模型、语音转文字以及通过 TorchAO 进行量化的 MoE 模型。
TorchKM:面向GPU的核学习与模型选择库
TorchKM是一个开源的GPU加速核机器库(支持向量机、核逻辑回归等),采用scikit-learn风格的API。通过重用矩阵运算加速训练和模型选择,相比标准基线实现了显著的加速比。
使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]
作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。