@charles_irl: ^这是CuTe DSL的一个示例,它用于FlashAttention-4内核等。以下是CuTe示例内核…
摘要
一条推文展示了一个CuTe DSL内核示例,该示例使用布局来表达转置,是FlashAttention-4内核的一部分。
^这是CuTe DSL的一个示例,它用于FlashAttention-4内核等。以下是CuTe内核示例,内含一个巧妙技巧:使用布局来表达转置。 https://modal.com/notebooks/modal-labs/examples/nb-owEUD0kdSVeL4KeEX5sjh1…
相似文章
@charles_irl: CuTe 和 CuTe DSL 文章包含最小代码片段,说明核心原则和基本用法。这些片段…
CuTe 和 CuTe DSL 文章提供了最小代码片段和 Modal Notebooks,以便动手学习。
@charles_irl: GPU 术语表新增文章:CuTe DSL、CUTLASS 和 CuTe——用于编写一些最高性能…
GPU 术语表新增文章,涵盖 CuTe DSL、CUTLASS 和 CuTe——这些工具用于在数据中心 GPU 上编写高性能 GPU 内核,并附有 Python 示例。
C++ CuTe / CUTLASS vs CuTeDSL (Python) in 2026 — 新的GPU内核/LLM推理工程师到底应该学什么?[D]
讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变,质疑新工程师是应该学习遗留的C++模板,还是优先考虑为LLM推理工作而兴起的新技术栈。
@hamzaelshafie: 新深度博客文章:《剖析ThunderKittens:高性能AI内核的紧凑型DSL解剖》这篇帖子……
一篇详细分析ThunderKittens的博客文章,ThunderKittens是用于高性能AI内核的紧凑型DSL。文章包括从底向上的抽象分析,以及一个实现非因果注意力预填充内核的基准测试,该内核比FlashAttention-2快约1.55倍,与FlashAttention-3性能相当。
@charles_irl: 在忙碌中竟然错过了这个。很酷的演示!
一位开发者使用自建ML框架,基于Rust后端和CUDA内核,包含Flash Attention和AdamW,从零训练了一个1200万参数的LLM。