标签
TokenSpeed-Kernel是一个可移植、高性能的内核系统,用于LLM推理,实现零厂商特定模型代码,并支持多种GPU架构,在AMD MI355X上实现高达3.6倍的吞吐量提升。
下载并编译了来自SakanaAI开源数据集的16,459个CUDA内核,并对它们进行性能基准测试。
Ahmad Osman宣布了四篇即将发布的文章,涵盖LLM解码/预填充、LLM核以及硬件比较(CPU、GPU、Tenstorrent、Apple Silicon),这些文章是基于他现有的“Local LLMs From Zero to Hero”系列。
这条推文解释了运行AI模型实际上是运行优化的内核,推理引擎及其内核实现对于性能至关重要,而不仅仅是模型或硬件。
作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。
Hugging Face 的内核项目正在扩展,并寻求贡献者参与自主内核开发,为模型提供真正的优化价值。
Deepseek 开源 DeepEP V2 与 TileKernels,两套全新的 GPU 内核库,用于加速 AI 工作负载。