C++ CuTe / CUTLASS vs CuTeDSL (Python) in 2026 — 新的GPU内核/LLM推理工程师到底应该学什么?[D]

Reddit r/MachineLearning 新闻

摘要

讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变,质疑新工程师是应该学习遗留的C++模板,还是优先考虑为LLM推理工作而兴起的新技术栈。

对于刚开始从事GPU内核工程或LLM推理(FlashAttention / FlashInfer / SGLang / vLLM这类工作)的人来说,大多数招聘信息仍然将“C++17、CuTe、CUTLASS”列为硬性要求。与此同时,NVIDIA自2025年底以来一直在大力推广CuTeDSL(CUTLASS 4.x中的Python DSL),将其作为新内核的新推荐路径——性能相同,无需模板元编程,支持JIT,迭代速度更快,并且与TorchInductor直接集成。在FlashAttention-4、FlashInfer以及SGLang的NVIDIA合作路线图中,这种转变感觉非常真实。向已经在这个领域工作的人请教一个问题:对于一个2026年刚入门的人来说,是值得深入学习遗留的C++ CuTe/CUTLASS模板,还是应该优先学习CuTeDSL → Triton → Mojo(只需轻量级的C++来阅读旧代码)?这个“新技术栈”(CuTeDSL + Triton + Rust/Mojo用于推理服务)目前是否已具备生产可行性,或者招聘信息是否正确地指出,你仍然需要扎实的C++ CUTLASS技能才能被录用并交付真正的内核?对于那些希望为FlashInfer / SGLang / FlashAttention做出贡献的新内核工程师,在正确的学习顺序方面有什么实战经验或建议?期待诚实的看法——谢谢!
查看原文

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。