kernels

标签

Cards List
#kernels

@PyTorch:一个运行时,多种GPU架构,零厂商特定模型代码。在这篇博文中,TokenSpeed团队 @l…

X AI KOLs Following · 昨天 缓存

TokenSpeed-Kernel是一个可移植、高性能的内核系统,用于LLM推理,实现零厂商特定模型代码,并支持多种GPU架构,在AMD MI355X上实现高达3.6倍的吞吐量提升。

0 人收藏 0 人点赞
#kernels

@elliotarledge: 刚刚从 @SakanaAILabs 的数据集中下载了16,459个内核,并正在编译和基准测试它们。很棒的开源数据集……

X AI KOLs Following · 2026-06-16 缓存

下载并编译了来自SakanaAI开源数据集的16,459个CUDA内核,并对它们进行性能基准测试。

0 人收藏 0 人点赞
#kernels

@TheAhmadOsman:目前正在撰写4篇不同的文章,将发布在X上并添加到下面列出的6篇文章中。它们将涵盖——LLM…

X AI KOLs Timeline · 2026-06-07 缓存

Ahmad Osman宣布了四篇即将发布的文章,涵盖LLM解码/预填充、LLM核以及硬件比较(CPU、GPU、Tenstorrent、Apple Silicon),这些文章是基于他现有的“Local LLMs From Zero to Hero”系列。

0 人收藏 0 人点赞
#kernels

@TheAhmadOsman: 你并不是在“运行模型”,你运行的是内核。模型只是一个图,推理引擎是调度器/优化器/执行器…

X AI KOLs Following · 2026-06-06 缓存

这条推文解释了运行AI模型实际上是运行优化的内核,推理引擎及其内核实现对于性能至关重要,而不仅仅是模型或硬件。

0 人收藏 0 人点赞
#kernels

使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning · 2026-05-18

作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。

0 人收藏 0 人点赞
#kernels

@RisingSayak: Hugging Face 的内核项目正在成长!我们希望它成为内核开发者和内核用户的首选之地…

X AI KOLs Following · 2026-05-15 缓存

Hugging Face 的内核项目正在扩展,并寻求贡献者参与自主内核开发,为模型提供真正的优化价值。

0 人收藏 0 人点赞
#kernels

Deepseek 发布 DeepEP V2 与 TileKernels

Reddit r/LocalLLaMA · 2026-04-23

Deepseek 开源 DeepEP V2 与 TileKernels,两套全新的 GPU 内核库,用于加速 AI 工作负载。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈