C++ CuTe / CUTLASS vs CuTeDSL (Python) in 2026 — 新的GPU内核/LLM推理工程师到底应该学什么？[D]

Reddit r/MachineLearning 2026/04/20 04:49 新闻

gpu-kernels llm-inference cuda cutlass career-advice cuda-dsl

摘要

讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变，质疑新工程师是应该学习遗留的C++模板，还是优先考虑为LLM推理工作而兴起的新技术栈。

对于刚开始从事GPU内核工程或LLM推理（FlashAttention / FlashInfer / SGLang / vLLM这类工作）的人来说，大多数招聘信息仍然将“C++17、CuTe、CUTLASS”列为硬性要求。与此同时，NVIDIA自2025年底以来一直在大力推广CuTeDSL（CUTLASS 4.x中的Python DSL），将其作为新内核的新推荐路径——性能相同，无需模板元编程，支持JIT，迭代速度更快，并且与TorchInductor直接集成。在FlashAttention-4、FlashInfer以及SGLang的NVIDIA合作路线图中，这种转变感觉非常真实。向已经在这个领域工作的人请教一个问题：对于一个2026年刚入门的人来说，是值得深入学习遗留的C++ CuTe/CUTLASS模板，还是应该优先学习CuTeDSL → Triton → Mojo（只需轻量级的C++来阅读旧代码）？这个“新技术栈”（CuTeDSL + Triton + Rust/Mojo用于推理服务）目前是否已具备生产可行性，或者招聘信息是否正确地指出，你仍然需要扎实的C++ CUTLASS技能才能被录用并交付真正的内核？对于那些希望为FlashInfer / SGLang / FlashAttention做出贡献的新内核工程师，在正确的学习顺序方面有什么实战经验或建议？期待诚实的看法——谢谢！

查看原文

相似文章

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

X AI KOLs Timeline

NVIDIA和Unsloth发布了一篇技术指南，详细介绍了三种底层优化方法，可将LLM微调速度提升高达25%，包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试，面向机器学习工程师和开发者。

@hardmaru: 人脑极其高效，因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline

本文介绍了TwELL和Hybrid稀疏格式，配合自定义CUDA内核，有效利用LLM中的非结构化稀疏性，在H100 GPU上实现了训练和推理速度提升超过20%，同时降低了能耗和内存使用。

@TheAhmadOsman：LLM 推理引擎栈拆解与负载/瓶颈速查表，来自即将发布的《推理引擎全解》…

X AI KOLs Timeline

Ahmad Osman 分享了一张速查表，提前拆解 LLM 推理引擎栈及常见负载瓶颈，为即将发布的深度文章预热。

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

X AI KOLs Timeline

A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

相似文章

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

@hardmaru: 人脑极其高效，因为它只激活特定思维所需的神经元。现代LLM…

@TheAhmadOsman：LLM 推理引擎栈拆解与负载/瓶颈速查表，来自即将发布的《推理引擎全解》…

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。 可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

提交意见反馈

@sheriyuo: 每个 AI 研究者都应该了解推理加速的原理，而 CUDA Graph 是 vLLM server 的一个核心部分，直接关系到 GPU 利用率。可以一起发到知乎和 X 上，用 LLM 翻译一下就好，好文章应该让更多人看到。 Every A…