@charles_irl: ^这是CuTe DSL的一个示例，它用于FlashAttention-4内核等。以下是CuTe示例内核…

X AI KOLs Following 2026/05/26 15:22 工具

cuda dsl flash-attention gpu-kernel linear-algebra transposition

摘要

一条推文展示了一个CuTe DSL内核示例，该示例使用布局来表达转置，是FlashAttention-4内核的一部分。

^这是CuTe DSL的一个示例，它用于FlashAttention-4内核等。以下是CuTe内核示例，内含一个巧妙技巧：使用布局来表达转置。 https://modal.com/notebooks/modal-labs/examples/nb-owEUD0kdSVeL4KeEX5sjh1…

查看原文

相似文章

X AI KOLs Following

CuTe 和 CuTe DSL 文章提供了最小代码片段和 Modal Notebooks，以便动手学习。

X AI KOLs Following

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

X AI KOLs Following

GPU 术语表新增文章，涵盖 CuTe DSL、CUTLASS 和 CuTe——这些工具用于在数据中心 GPU 上编写高性能 GPU 内核，并附有 Python 示例。

X AI KOLs Timeline

Claude Fable 使用 pyptx DSL 为 NVIDIA B200 编写了一个 FlashAttention 前向内核，其性能与手动调优的 CUTLASS 内核接近，展示了 AI 代理在编译器和 DSL 设计中的潜力。

X AI KOLs Timeline

AI模型Claude被用于使用pyptx DSL编写FlashAttention前向内核，在NVIDIA B200硬件上实现了与手工调优的FlashAttention-4近乎相同的性能。