@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…

X AI KOLs Timeline 工具

摘要

从 MSA 论文内核设计部分实现了 top-k 内核,使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。

实现了 MSA 论文内核设计部分的 top-k 内核。 https://github.com/Mantissagithub/learn_cuda/blob/msa/07_projects/msa/top_k.cu… 其中包含两个思路: - 免指数比较:无需计算 softmax,因为 softmax 保持顺序不变。 - 每个 warp 线程(lane)扫描 1/32 的步幅,维持一个小的本地 top-k,然后通过 shuffle 指令进行树合并。 整晚都在修改 CUDA,并清理了我的 learn_cuda 仓库,欢迎任何反馈或优化建议。
查看原文
查看缓存全文

缓存时间: 2026/06/15 13:04

实现了 msa 论文中内核设计部分的 top-k 内核。

https://github.com/Mantissagithub/learn_cuda/blob/msa/07_projects/msa/top_k.cu…

它基于两个思路:

  • 免指数比较:无需计算 softmax,因为 softmax 不改变大小顺序
  • 每个 warp 线程扫描 1/32 步长,维护一个小的本地 top-k,并通过洗牌操作树形合并结果

结果熬夜修改了 CUDA 代码,也清理了我的 learn_cuda 仓库,因此欢迎任何反馈或优化建议。


Mantissagithub/learn_cuda

Source: https://github.com/Mantissagithub/learn_cuda

learn_cuda

学习 CUDA(即 GPU 编程)

相似文章

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline

本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。

在Ryzen AI 7 350 NPU上达到峰值TOPS性能

Lobsters Hottest

关于在AMD Ryzen AI 7 350 NPU上实现峰值TOPS性能的技术深度剖析,与Xilinx AIE-ML v2 AI引擎进行比较,并解释用于矩阵乘法工作负载的硬件架构。