@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…

X AI KOLs Timeline 2026/06/15 07:44 工具

top-k kernel-design cuda gpu-programming attention open-source

摘要

从 MSA 论文内核设计部分实现了 top-k 内核，使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。

实现了 MSA 论文内核设计部分的 top-k 内核。 https://github.com/Mantissagithub/learn_cuda/blob/msa/07_projects/msa/top_k.cu… 其中包含两个思路： - 免指数比较：无需计算 softmax，因为 softmax 保持顺序不变。 - 每个 warp 线程（lane）扫描 1/32 的步幅，维持一个小的本地 top-k，然后通过 shuffle 指令进行树合并。整晚都在修改 CUDA，并清理了我的 learn_cuda 仓库，欢迎任何反馈或优化建议。

查看原文

查看缓存全文

缓存时间: 2026/06/15 13:04

实现了 msa 论文中内核设计部分的 top-k 内核。

https://github.com/Mantissagithub/learn_cuda/blob/msa/07_projects/msa/top_k.cu…

它基于两个思路：

免指数比较：无需计算 softmax，因为 softmax 不改变大小顺序
每个 warp 线程扫描 1/32 步长，维护一个小的本地 top-k，并通过洗牌操作树形合并结果

结果熬夜修改了 CUDA 代码，也清理了我的 learn_cuda 仓库，因此欢迎任何反馈或优化建议。

Mantissagithub/learn_cuda

Source: https://github.com/Mantissagithub/learn_cuda

learn_cuda

学习 CUDA（即 GPU 编程）

相似文章

AdaExplore：基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore，这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术，在不进行额外微调的情况下，在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline

本文介绍了Decompose-K技术，用于加速瘦高大K矩阵乘法，通过将K维度分割成块，执行批量矩阵乘法，并求和部分结果。还提供了PyTorch实现和基准测试，显示对于形状不佳的矩阵乘法，相比标准torch.compile有显著加速。

在Ryzen AI 7 350 NPU上达到峰值TOPS性能

Lobsters Hottest

关于在AMD Ryzen AI 7 350 NPU上实现峰值TOPS性能的技术深度剖析，与Xilinx AIE-ML v2 AI引擎进行比较，并解释用于矩阵乘法工作负载的硬件架构。

@raphaelsrty：在GPU上计算最大相似度（ColBERT、ColPali的评分步骤）可以被优化，这正是@tonywu_71所做的。我……

X AI KOLs Following

Tony Wu发布了late-interaction-kernels (LIK)：用于MaxSim的融合Triton内核，MaxSim是ColBERT和ColPali背后的评分步骤，已集成到PyLate和colpali-engine中，提供了内存效率和性能提升。

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…