@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…
摘要
从 MSA 论文内核设计部分实现了 top-k 内核,使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。
查看缓存全文
缓存时间: 2026/06/15 13:04
实现了 msa 论文中内核设计部分的 top-k 内核。
https://github.com/Mantissagithub/learn_cuda/blob/msa/07_projects/msa/top_k.cu…
它基于两个思路:
- 免指数比较:无需计算 softmax,因为 softmax 不改变大小顺序
- 每个 warp 线程扫描 1/32 步长,维护一个小的本地 top-k,并通过洗牌操作树形合并结果
结果熬夜修改了 CUDA 代码,也清理了我的 learn_cuda 仓库,因此欢迎任何反馈或优化建议。
Mantissagithub/learn_cuda
Source: https://github.com/Mantissagithub/learn_cuda
learn_cuda
学习 CUDA(即 GPU 编程)
相似文章
AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成
来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。
@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212
本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。
在Ryzen AI 7 350 NPU上达到峰值TOPS性能
关于在AMD Ryzen AI 7 350 NPU上实现峰值TOPS性能的技术深度剖析,与Xilinx AIE-ML v2 AI引擎进行比较,并解释用于矩阵乘法工作负载的硬件架构。
@raphaelsrty:在GPU上计算最大相似度(ColBERT、ColPali的评分步骤)可以被优化,这正是@tonywu_71所做的。我……
Tony Wu发布了late-interaction-kernels (LIK):用于MaxSim的融合Triton内核,MaxSim是ColBERT和ColPali背后的评分步骤,已集成到PyLate和colpali-engine中,提供了内存效率和性能提升。
@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…
一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。