cuda

#cuda

你可以在Apple Silicon Mac上通过PCI穿透进行CUDA推理

Reddit r/LocalLLaMA ↗ · 2天前缓存

本文探讨了通过Thunderbolt在Apple Silicon Mac上使用外部NVIDIA RTX 5090 GPU进行CUDA推理和游戏的可行性，涵盖了tinygrad eGPU驱动以及向Linux虚拟机进行PCI穿透等方法。

0 人收藏 0 人点赞

#cuda

@pauliusztin_: 我刚找到了理解 GPU 最实用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间跳来跳去了…

X AI KOLs Following ↗ · 2天前缓存

Modal Labs 发布了一个开源的 GPU 术语词典，将零散的 NVIDIA 文档、CUDA 细节及编译器参数整合为单一的可导航资源，旨在帮助工程师优化 LLM 的训练与推理。

0 人收藏 0 人点赞

#cuda

@npashi: 终于可以谈谈过去6个月我在@nvidia一直埋头做的事了。我们刚刚开源了cuda-oxide——一个实验性…

X AI KOLs Timeline ↗ · 2天前缓存

NVIDIA 已开源 cuda-oxide，这是一个实验性的 rustc 后端，允许开发者直接用纯 Rust 编写 CUDA 内核，无需 DSL、FFI 或源码到源码的转换。

0 人收藏 0 人点赞

#cuda

cuda-oxide 手册

Lobsters Hottest ↗ · 3天前缓存

cuda-oxide 是一个实验性的 Rust 到 CUDA 编译器，允许开发者编写安全、符合 Rust 惯用法的 GPU 内核，并直接编译为 PTX。

0 人收藏 0 人点赞

#cuda

cuda-oxide: 一款实验性的 Rust-to-CUDA 编译器

Lobsters Hottest ↗ · 3天前缓存

cuda-oxide 是 NVIDIA 发布的一款实验性 Rust-to-CUDA 编译器后端，支持纯 Rust GPU 内核开发，无需外部语言绑定。

0 人收藏 0 人点赞

#cuda

@vivekgalatage: 来自康奈尔大学的路线图 - CUDA 入门 http://cvw.cac.cornell.edu/cuda-intro

X AI KOLs Timeline ↗ · 4天前缓存

本文介绍了康奈尔大学虚拟工作坊提供的免费在线教程，内容涵盖使用 C 语言进行基础 CUDA 编程，并包括先决条件和附加资源。

0 人收藏 0 人点赞

#cuda

C++ CuTe / CUTLASS vs CuTeDSL (Python) in 2026 — 新的GPU内核/LLM推理工程师到底应该学什么？[D]

Reddit r/MachineLearning ↗ · 2026-04-20

讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变，质疑新工程师是应该学习遗留的C++模板，还是优先考虑为LLM推理工作而兴起的新技术栈。

0 人收藏 0 人点赞

#cuda

NVIDIA GTC 2026：AI 未来趋势实时速递

NVIDIA Blog ↗ · 2026-03-20 缓存

NVIDIA GTC 2026 主题演讲重点庆祝 CUDA 问世 20 周年，正式发布搭载 AI 驱动神经渲染技术的 DLSS 5，并全面展示 NVIDIA 在车载、医疗、机器人及各垂直领域的加速计算平台。Jensen Huang 指出，受庞大 AI 需求驱动，预计 2025 至 2027 年间计算业务营收将突破 1 万亿美元。

0 人收藏 0 人点赞

#cuda

# 介绍 Triton：神经网络开源 GPU 编程来源：[https://openai.com/index/triton/](https://openai.com/index/triton/) ![介绍 Triton 开源 GPU 编程神经网络](https://images.ctfassets.net/kftzwdyauwt9/cdce1ebd-19a2-4848-a08ec8c44e18/55b924fc6628318148b7c5c4902551e7/image-18.webp?w=3840&q=90&fm=webp) 我们发布了 Triton 1.0，这是一种开源的类 Python 编程语言，使没有 CUDA 经验的研究人员能够编写高效的 GPU 代码——在大多数情况下与专家能够生成的代码性能相当。

0 人收藏 0 人点赞

#cuda

deepseek-ai/DeepGEMM

GitHub Trending (daily) ↗ · 2026-04-21 缓存

# deepseek-ai/DeepGEMM 来源：[https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM) # DeepGEMM DeepGEMM 是一个统一的高性能张量核心内核库，整合了现代大语言模型的关键计算原语——GEMM（FP8、FP4、BF16）、带通信重叠的融合 MoE（Mega MoE）、闪电索引器的 MQA 评分、超连接（HC）等——形成一个统一的 CUDA 代码库。所有内核均在运行时编译

0 人收藏 0 人点赞

cuda

提交意见反馈