C++ CuTe / CUTLASS vs CuTeDSL (Python) in 2026 — 新的GPU内核/LLM推理工程师到底应该学什么?[D]
摘要
讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变,质疑新工程师是应该学习遗留的C++模板,还是优先考虑为LLM推理工作而兴起的新技术栈。
对于刚开始从事GPU内核工程或LLM推理(FlashAttention / FlashInfer / SGLang / vLLM这类工作)的人来说,大多数招聘信息仍然将“C++17、CuTe、CUTLASS”列为硬性要求。与此同时,NVIDIA自2025年底以来一直在大力推广CuTeDSL(CUTLASS 4.x中的Python DSL),将其作为新内核的新推荐路径——性能相同,无需模板元编程,支持JIT,迭代速度更快,并且与TorchInductor直接集成。在FlashAttention-4、FlashInfer以及SGLang的NVIDIA合作路线图中,这种转变感觉非常真实。向已经在这个领域工作的人请教一个问题:对于一个2026年刚入门的人来说,是值得深入学习遗留的C++ CuTe/CUTLASS模板,还是应该优先学习CuTeDSL → Triton → Mojo(只需轻量级的C++来阅读旧代码)?这个“新技术栈”(CuTeDSL + Triton + Rust/Mojo用于推理服务)目前是否已具备生产可行性,或者招聘信息是否正确地指出,你仍然需要扎实的C++ CUTLASS技能才能被录用并交付真正的内核?对于那些希望为FlashInfer / SGLang / FlashAttention做出贡献的新内核工程师,在正确的学习顺序方面有什么实战经验或建议?期待诚实的看法——谢谢!
相似文章
@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。
@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…
本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。
@TheAhmadOsman:LLM 推理引擎栈拆解与负载/瓶颈速查表,来自即将发布的《推理引擎全解》…
Ahmad Osman 分享了一张速查表,提前拆解 LLM 推理引擎栈及常见负载瓶颈,为即将发布的深度文章预热。
@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理,而 CUDA Graph 是 vLLM server 的一个核心部分,直接关系到 GPU 利用率。 可以一起发到知乎和 X 上,用 LLM 翻译一下就好,好文章应该让更多人看到。 Every A…
A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。