cuda

#cuda

既然大语言模型编码这么厉害……

Reddit r/LocalLLaMA ↗ · 5小时前

讨论为何大语言模型未能帮助ROCm和英特尔的软件生态系统追上CUDA，并指出NVIDIA的高定价和真正市场竞争的必要性。

0 人收藏 0 人点赞

#cuda

Graphsignal (GitHub Repo)

TLDR AI ↗ · 昨天缓存

Graphsignal 是一个生产级推理性能分析平台，提供详细时间线、大语言模型生成追踪和系统级指标，帮助工程师跨模型、GPU及其他加速器优化AI性能。

0 人收藏 0 人点赞

#cuda

@YoussefHosni951: 大多数工程师学不会CUDA并不是因为它难，而是因为他们按错误的顺序读了正确的书。CU…

X AI KOLs Timeline ↗ · 昨天缓存

一条推荐阅读CUDA书籍最佳顺序的推文，从《CUDA by Example》开始建立直觉，然后再深入更高级的文本。

0 人收藏 0 人点赞

#cuda

@neural_avb: 今日发现 "GPU Mode" 他们有一个YouTube系列来学习CUDA。还有一个GitHub仓库包含幻灯片/笔记本。一些讲座是…

X AI KOLs Timeline ↗ · 昨天缓存

GPU Mode 是一个学习资源，包含YouTube系列、GitHub仓库（含幻灯片/笔记本）以及一个类似Leetcode的练习网站，用于掌握CUDA编程。

0 人收藏 0 人点赞

#cuda

@QuixiAI: https://x.com/QuixiAI/status/2068776183102067086

X AI KOLs Following ↗ · 3天前缓存

DwarfStar 是一个自包含的原生推理引擎，专为 DeepSeek V4 Flash 和 PRO 模型优化，支持 Metal、CUDA 和 ROCm 后端，专注于高端个人电脑和 Mac Studio。

0 人收藏 0 人点赞

#cuda

GPU上的无畏并发：在Rust中进行安全的GPU推理，与vLLM/SGLang竞争 [R]

Reddit r/MachineLearning ↗ · 6天前

cuTile Rust 引入了一种基于块（tile）的编程模型，利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争，基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。

0 人收藏 0 人点赞

#cuda

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核，batch-1 解码带宽受限……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

AutoMegaKernel 是一个开源代理框架，能将任意 HuggingFace 模型编译成一个持久的单一兆核（megakernel），将整个前向传播融合到一次 GPU 启动中，从而减少开销。在 L4 和 L40S 等推理级 GPU 上，它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速，同时保证调度没有死锁和竞争条件。

0 人收藏 0 人点赞

#cuda

@ericlbuehler: 兴奋地分享 cuTile Rust：将 Rust 的无畏并发性引入 GPU 内核编程。我们的论文《Fearless Concu…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

兴奋地分享 cuTile Rust，将 Rust 的无畏并发性引入 GPU 内核编程。他们的论文《Fearless Concurrency on the GPU》现已发布在 arXiv 上。

0 人收藏 0 人点赞

#cuda

@reprompting: 使用共享内存归约的朴素CUDA softmax。归约似乎是一个非常直接的概念。

X AI KOLs Timeline ↗ · 2026-06-17 缓存

一条推文分享了一个使用共享内存归约的朴素CUDA softmax实现，并指出归约非常直接。

0 人收藏 0 人点赞

#cuda

@elliotarledge: 刚刚从 @SakanaAILabs 的数据集中下载了16,459个内核，并正在编译和基准测试它们。很棒的开源数据集……

X AI KOLs Following ↗ · 2026-06-16 缓存

下载并编译了来自SakanaAI开源数据集的16,459个CUDA内核，并对它们进行性能基准测试。

0 人收藏 0 人点赞

#cuda

我不知道居然可以同时编译llamacpp来运行CUDA和Vulkan..

Reddit r/LocalLLaMA ↗ · 2026-06-16

作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的，解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。

0 人收藏 0 人点赞

#cuda

Show HN: cuTile Rust：在Rust中编写安全、无数据竞争的GPU内核

Hacker News Top ↗ · 2026-06-16 缓存

NVIDIA Labs发布了cuTile Rust，这是一个基于瓦片的系统，用于用地道的Rust编写内存安全、无数据竞争的GPU内核。它将Rust的所有权模型扩展到GPU内核，通过JIT将Rust的AST编译为GPU代码，并实现接近原生CUDA的性能。

0 人收藏 0 人点赞

#cuda

@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

从 MSA 论文内核设计部分实现了 top-k 内核，使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。

0 人收藏 0 人点赞

#cuda

@frank_uid: 最近在学Infra的东西，vibe了一个Qwen3的推理引擎，纯c++/cuda实现，带hf模型解析和benchmark总共不到2000行，完全无外部依赖，编译出来二进制只有1.2MB（Claude写kernel太猛了

X AI KOLs Timeline ↗ · 2026-06-13 缓存

FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.

0 人收藏 0 人点赞

#cuda

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following ↗ · 2026-06-11 缓存

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

0 人收藏 0 人点赞

#cuda

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

X AI KOLs Following ↗ · 2026-06-11 缓存

一篇博客文章详细介绍了对FlashAttention-4的贡献，通过调整并行策略和支持不规则内存访问，以提升其在大型语言模型推理中的性能，特别是针对解码密集型工作负载。

0 人收藏 0 人点赞

#cuda

@zostaff: https://x.com/zostaff/status/2065069139341742588

X AI KOLs Timeline ↗ · 2026-06-11 缓存

本文介绍了成为GPU/CUDA工程师的最优AI增强路径，重点介绍了薪资范围以及推理优化专家日益增长的需求。文章提供了现实的时间表，并强调了利用AI工具加速学习的重要性。

0 人收藏 0 人点赞

#cuda

AMD的Lemonade SDK为本地AI添加了NVIDIA CUDA支持

Reddit r/artificial ↗ · 2026-06-11 缓存

AMD的Lemonade SDK在10.7版本中为本地AI添加了NVIDIA CUDA支持，使得在竞争对手的GPU上也能获得相同的本地AI服务器体验。该版本还引入了lemonade bench，用于跨后端的LLM基准测试，并提供了更广泛的Vulkan支持。

0 人收藏 0 人点赞

#cuda

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-10 缓存

一个针对 llama.cpp 的拉取请求，移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝，提高了 GPU 上的性能。

0 人收藏 0 人点赞

cuda

既然大语言模型编码这么厉害……

Graphsignal (GitHub Repo)

@YoussefHosni951: 大多数工程师学不会CUDA并不是因为它难，而是因为他们按错误的顺序读了正确的书。CU…

@neural_avb: 今日发现 "GPU Mode" 他们有一个YouTube系列来学习CUDA。还有一个GitHub仓库包含幻灯片/笔记本。一些讲座是…

@QuixiAI: https://x.com/QuixiAI/status/2068776183102067086

GPU上的无畏并发：在Rust中进行安全的GPU推理，与vLLM/SGLang竞争 [R]

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核，batch-1 解码带宽受限……

@ericlbuehler: 兴奋地分享 cuTile Rust：将 Rust 的无畏并发性引入 GPU 内核编程。我们的论文《Fearless Concu…

@reprompting: 使用共享内存归约的朴素CUDA softmax。归约似乎是一个非常直接的概念。

@elliotarledge: 刚刚从 @SakanaAILabs 的数据集中下载了16,459个内核，并正在编译和基准测试它们。很棒的开源数据集……

我不知道居然可以同时编译llamacpp来运行CUDA和Vulkan..

Show HN: cuTile Rust：在Rust中编写安全、无数据竞争的GPU内核

最新的LM Studio更新导致MTP性能下降

@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…

@frank_uid: 最近在学Infra的东西，vibe了一个Qwen3的推理引擎，纯c++/cuda实现，带hf模型解析和benchmark总共不到2000行，完全无外部依赖，编译出来二进制只有1.2MB（Claude写kernel太猛了

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

@zostaff: https://x.com/zostaff/status/2065069139341742588

AMD的Lemonade SDK为本地AI添加了NVIDIA CUDA支持

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

提交意见反馈