标签
Graphsignal 是一个生产级推理性能分析平台,提供详细时间线、大语言模型生成追踪和系统级指标,帮助工程师跨模型、GPU及其他加速器优化AI性能。
一条推荐阅读CUDA书籍最佳顺序的推文,从《CUDA by Example》开始建立直觉,然后再深入更高级的文本。
GPU Mode 是一个学习资源,包含YouTube系列、GitHub仓库(含幻灯片/笔记本)以及一个类似Leetcode的练习网站,用于掌握CUDA编程。
DwarfStar 是一个自包含的原生推理引擎,专为 DeepSeek V4 Flash 和 PRO 模型优化,支持 Metal、CUDA 和 ROCm 后端,专注于高端个人电脑和 Mac Studio。
cuTile Rust 引入了一种基于块(tile)的编程模型,利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争,基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。
AutoMegaKernel 是一个开源代理框架,能将任意 HuggingFace 模型编译成一个持久的单一兆核(megakernel),将整个前向传播融合到一次 GPU 启动中,从而减少开销。在 L4 和 L40S 等推理级 GPU 上,它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速,同时保证调度没有死锁和竞争条件。
兴奋地分享 cuTile Rust,将 Rust 的无畏并发性引入 GPU 内核编程。他们的论文《Fearless Concurrency on the GPU》现已发布在 arXiv 上。
一条推文分享了一个使用共享内存归约的朴素CUDA softmax实现,并指出归约非常直接。
下载并编译了来自SakanaAI开源数据集的16,459个CUDA内核,并对它们进行性能基准测试。
作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的,解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。
NVIDIA Labs发布了cuTile Rust,这是一个基于瓦片的系统,用于用地道的Rust编写内存安全、无数据竞争的GPU内核。它将Rust的所有权模型扩展到GPU内核,通过JIT将Rust的AST编译为GPU代码,并实现接近原生CUDA的性能。
有用户报告称,最新的LM Studio更新(0.4.17)消除了多令牌预测的速度提升,在RTX 5090配置上恢复到之前的性能。
从 MSA 论文内核设计部分实现了 top-k 内核,使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。
FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.
关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
本文介绍了成为GPU/CUDA工程师的最优AI增强路径,重点介绍了薪资范围以及推理优化专家日益增长的需求。文章提供了现实的时间表,并强调了利用AI工具加速学习的重要性。
AMD的Lemonade SDK在10.7版本中为本地AI添加了NVIDIA CUDA支持,使得在竞争对手的GPU上也能获得相同的本地AI服务器体验。该版本还引入了lemonade bench,用于跨后端的LLM基准测试,并提供了更广泛的Vulkan支持。
一个针对 llama.cpp 的拉取请求,移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝,提高了 GPU 上的性能。