kernels

#kernels

@PyTorch：一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @l…

X AI KOLs Following ↗ · 昨天缓存

TokenSpeed-Kernel是一个可移植、高性能的内核系统，用于LLM推理，实现零厂商特定模型代码，并支持多种GPU架构，在AMD MI355X上实现高达3.6倍的吞吐量提升。

0 人收藏 0 人点赞

#kernels

@elliotarledge: 刚刚从 @SakanaAILabs 的数据集中下载了16,459个内核，并正在编译和基准测试它们。很棒的开源数据集……

X AI KOLs Following ↗ · 2026-06-16 缓存

下载并编译了来自SakanaAI开源数据集的16,459个CUDA内核，并对它们进行性能基准测试。

0 人收藏 0 人点赞

#kernels

@TheAhmadOsman：目前正在撰写4篇不同的文章，将发布在X上并添加到下面列出的6篇文章中。它们将涵盖——LLM…

X AI KOLs Timeline ↗ · 2026-06-07 缓存

Ahmad Osman宣布了四篇即将发布的文章，涵盖LLM解码/预填充、LLM核以及硬件比较（CPU、GPU、Tenstorrent、Apple Silicon），这些文章是基于他现有的“Local LLMs From Zero to Hero”系列。

0 人收藏 0 人点赞

#kernels

@TheAhmadOsman: 你并不是在“运行模型”，你运行的是内核。模型只是一个图，推理引擎是调度器/优化器/执行器…

X AI KOLs Following ↗ · 2026-06-06 缓存

这条推文解释了运行AI模型实际上是运行优化的内核，推理引擎及其内核实现对于性能至关重要，而不仅仅是模型或硬件。

0 人收藏 0 人点赞

#kernels

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning ↗ · 2026-05-18

作者描述了构建FlashRT的过程，这是一个以CUDA为核心的推理运行时，通过使用C++/CUDA内核重写模型推理路径，来解决小批量/实时工作负载中超出GEMM的瓶颈，在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验（FP8有帮助，FP4好坏参半）以及绕过通用运行时进行实时推理的必要性。

0 人收藏 0 人点赞

#kernels

@RisingSayak: Hugging Face 的内核项目正在成长！我们希望它成为内核开发者和内核用户的首选之地…

X AI KOLs Following ↗ · 2026-05-15 缓存

Hugging Face 的内核项目正在扩展，并寻求贡献者参与自主内核开发，为模型提供真正的优化价值。

0 人收藏 0 人点赞

#kernels

Deepseek 发布 DeepEP V2 与 TileKernels

Reddit r/LocalLLaMA ↗ · 2026-04-23

Deepseek 开源 DeepEP V2 与 TileKernels，两套全新的 GPU 内核库，用于加速 AI 工作负载。

0 人收藏 0 人点赞

kernels

@PyTorch：一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @l…

@elliotarledge: 刚刚从 @SakanaAILabs 的数据集中下载了16,459个内核，并正在编译和基准测试它们。很棒的开源数据集……

@TheAhmadOsman：目前正在撰写4篇不同的文章，将发布在X上并添加到下面列出的6篇文章中。它们将涵盖——LLM…

@TheAhmadOsman: 你并不是在“运行模型”，你运行的是内核。模型只是一个图，推理引擎是调度器/优化器/执行器…

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

@RisingSayak: Hugging Face 的内核项目正在成长！我们希望它成为内核开发者和内核用户的首选之地…

Deepseek 发布 DeepEP V2 与 TileKernels

提交意见反馈