cuda

标签

Cards List
#cuda

既然大语言模型编码这么厉害……

Reddit r/LocalLLaMA · 5小时前

讨论为何大语言模型未能帮助ROCm和英特尔的软件生态系统追上CUDA,并指出NVIDIA的高定价和真正市场竞争的必要性。

0 人收藏 0 人点赞
#cuda

Graphsignal (GitHub Repo)

TLDR AI · 昨天 缓存

Graphsignal 是一个生产级推理性能分析平台,提供详细时间线、大语言模型生成追踪和系统级指标,帮助工程师跨模型、GPU及其他加速器优化AI性能。

0 人收藏 0 人点赞
#cuda

@YoussefHosni951: 大多数工程师学不会CUDA并不是因为它难,而是因为他们按错误的顺序读了正确的书。CU…

X AI KOLs Timeline · 昨天 缓存

一条推荐阅读CUDA书籍最佳顺序的推文,从《CUDA by Example》开始建立直觉,然后再深入更高级的文本。

0 人收藏 0 人点赞
#cuda

@neural_avb: 今日发现 "GPU Mode" 他们有一个YouTube系列来学习CUDA。还有一个GitHub仓库包含幻灯片/笔记本。一些讲座是…

X AI KOLs Timeline · 昨天 缓存

GPU Mode 是一个学习资源,包含YouTube系列、GitHub仓库(含幻灯片/笔记本)以及一个类似Leetcode的练习网站,用于掌握CUDA编程。

0 人收藏 0 人点赞
#cuda

@QuixiAI: https://x.com/QuixiAI/status/2068776183102067086

X AI KOLs Following · 3天前 缓存

DwarfStar 是一个自包含的原生推理引擎,专为 DeepSeek V4 Flash 和 PRO 模型优化,支持 Metal、CUDA 和 ROCm 后端,专注于高端个人电脑和 Mac Studio。

0 人收藏 0 人点赞
#cuda

GPU上的无畏并发:在Rust中进行安全的GPU推理,与vLLM/SGLang竞争 [R]

Reddit r/MachineLearning · 6天前

cuTile Rust 引入了一种基于块(tile)的编程模型,利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争,基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。

0 人收藏 0 人点赞
#cuda

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核,batch-1 解码带宽受限……

X AI KOLs Timeline · 2026-06-17 缓存

AutoMegaKernel 是一个开源代理框架,能将任意 HuggingFace 模型编译成一个持久的单一兆核(megakernel),将整个前向传播融合到一次 GPU 启动中,从而减少开销。在 L4 和 L40S 等推理级 GPU 上,它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速,同时保证调度没有死锁和竞争条件。

0 人收藏 0 人点赞
#cuda

@ericlbuehler: 兴奋地分享 cuTile Rust:将 Rust 的无畏并发性引入 GPU 内核编程。我们的论文《Fearless Concu…

X AI KOLs Timeline · 2026-06-17 缓存

兴奋地分享 cuTile Rust,将 Rust 的无畏并发性引入 GPU 内核编程。他们的论文《Fearless Concurrency on the GPU》现已发布在 arXiv 上。

0 人收藏 0 人点赞
#cuda

@reprompting: 使用共享内存归约的朴素CUDA softmax。归约似乎是一个非常直接的概念。

X AI KOLs Timeline · 2026-06-17 缓存

一条推文分享了一个使用共享内存归约的朴素CUDA softmax实现,并指出归约非常直接。

0 人收藏 0 人点赞
#cuda

@elliotarledge: 刚刚从 @SakanaAILabs 的数据集中下载了16,459个内核,并正在编译和基准测试它们。很棒的开源数据集……

X AI KOLs Following · 2026-06-16 缓存

下载并编译了来自SakanaAI开源数据集的16,459个CUDA内核,并对它们进行性能基准测试。

0 人收藏 0 人点赞
#cuda

我不知道居然可以同时编译llamacpp来运行CUDA和Vulkan..

Reddit r/LocalLLaMA · 2026-06-16

作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的,解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。

0 人收藏 0 人点赞
#cuda

Show HN: cuTile Rust:在Rust中编写安全、无数据竞争的GPU内核

Hacker News Top · 2026-06-16 缓存

NVIDIA Labs发布了cuTile Rust,这是一个基于瓦片的系统,用于用地道的Rust编写内存安全、无数据竞争的GPU内核。它将Rust的所有权模型扩展到GPU内核,通过JIT将Rust的AST编译为GPU代码,并实现接近原生CUDA的性能。

0 人收藏 0 人点赞
#cuda

最新的LM Studio更新导致MTP性能下降

Reddit r/LocalLLaMA · 2026-06-15

有用户报告称,最新的LM Studio更新(0.4.17)消除了多令牌预测的速度提升,在RTX 5090配置上恢复到之前的性能。

0 人收藏 0 人点赞
#cuda

@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…

X AI KOLs Timeline · 2026-06-15 缓存

从 MSA 论文内核设计部分实现了 top-k 内核,使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。

0 人收藏 0 人点赞
#cuda

@frank_uid: 最近在学Infra的东西,vibe了一个Qwen3的推理引擎,纯c++/cuda实现,带hf模型解析和benchmark总共不到2000行,完全无外部依赖,编译出来二进制只有1.2MB(Claude写kernel太猛了

X AI KOLs Timeline · 2026-06-13 缓存

FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.

0 人收藏 0 人点赞
#cuda

@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following · 2026-06-11 缓存

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

0 人收藏 0 人点赞
#cuda

@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…

X AI KOLs Following · 2026-06-11 缓存

一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。

0 人收藏 0 人点赞
#cuda

@zostaff: https://x.com/zostaff/status/2065069139341742588

X AI KOLs Timeline · 2026-06-11 缓存

本文介绍了成为GPU/CUDA工程师的最优AI增强路径,重点介绍了薪资范围以及推理优化专家日益增长的需求。文章提供了现实的时间表,并强调了利用AI工具加速学习的重要性。

0 人收藏 0 人点赞
#cuda

AMD的Lemonade SDK为本地AI添加了NVIDIA CUDA支持

Reddit r/artificial · 2026-06-11 缓存

AMD的Lemonade SDK在10.7版本中为本地AI添加了NVIDIA CUDA支持,使得在竞争对手的GPU上也能获得相同的本地AI服务器体验。该版本还引入了lemonade bench,用于跨后端的LLM基准测试,并提供了更广泛的Vulkan支持。

0 人收藏 0 人点赞
#cuda

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-06-10 缓存

一个针对 llama.cpp 的拉取请求,移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝,提高了 GPU 上的性能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈