gpu-kernel

#gpu-kernel

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline ↗ · 2天前缓存

本文介绍了Decompose-K技术，用于加速瘦高大K矩阵乘法，通过将K维度分割成块，执行批量矩阵乘法，并求和部分结果。还提供了PyTorch实现和基准测试，显示对于形状不佳的矩阵乘法，相比标准torch.compile有显著加速。

0 人收藏 0 人点赞

#gpu-kernel

X AI KOLs Following ↗ · 2026-06-11 缓存

Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环，在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果，并开源了相关工件以供进一步检验。

0 人收藏 0 人点赞

#gpu-kernel

X AI KOLs Following ↗ · 2026-05-26

一条推文展示了一个CuTe DSL内核示例，该示例使用布局来表达转置，是FlashAttention-4内核的一部分。

0 人收藏 0 人点赞

#gpu-kernel

X AI KOLs Following ↗ · 2026-05-26 缓存

Meta 开源了 TLX Block Attention，这是一个 warp 特化的 Triton 内核，在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速，与旋转嵌入融合时加速可达 3.5 倍。

0 人收藏 0 人点赞

#gpu-kernel

X AI KOLs Following ↗ · 2026-05-21 缓存

CODA 引入了一种 GPU 内核抽象，将 transformer 计算重写为 GEMM-plus-epilogue 程序，减少内存受限操作，提高训练效率。

0 人收藏 0 人点赞

#gpu-kernel

Reddit r/LocalLLaMA ↗ · 2026-04-22

MoonshotAI 发布 FlashKDA，开源 CUTLASS 内核实现 Kimi Delta Attention，在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

0 人收藏 0 人点赞