gpu-kernel

标签

Cards List
#gpu-kernel

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline · 2天前 缓存

本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。

0 人收藏 0 人点赞
#gpu-kernel

@ChengleiSi:兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果,我们在……上达到了SOTA

X AI KOLs Following · 2026-06-11 缓存

Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环,在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果,并开源了相关工件以供进一步检验。

0 人收藏 0 人点赞
#gpu-kernel

@charles_irl: ^这是CuTe DSL的一个示例,它用于FlashAttention-4内核等。以下是CuTe示例内核…

X AI KOLs Following · 2026-05-26

一条推文展示了一个CuTe DSL内核示例,该示例使用布局来表达转置,是FlashAttention-4内核的一部分。

0 人收藏 0 人点赞
#gpu-kernel

@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核,使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…

X AI KOLs Following · 2026-05-26 缓存

Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。

0 人收藏 0 人点赞
#gpu-kernel

最后,衷心感谢这个了不起的团队:@jcz42, Arjun, Driss, @tensorcore, @yoonrkim 和 @tri_dao!PDF: https://a…

X AI KOLs Following · 2026-05-21 缓存

CODA 引入了一种 GPU 内核抽象,将 transformer 计算重写为 GEMM-plus-epilogue 程序,减少内存受限操作,提高训练效率。

0 人收藏 0 人点赞
#gpu-kernel

Moonshot 开源 FlashKDA:面向 Kimi Delta Attention 的 CUTLASS 内核,H20 上最高比 Triton 基线快 2.22 倍

Reddit r/LocalLLaMA · 2026-04-22

MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈