cuda-oxide 手册
摘要
cuda-oxide 是一个实验性的 Rust 到 CUDA 编译器,允许开发者编写安全、符合 Rust 惯用法的 GPU 内核,并直接编译为 PTX。
查看缓存全文
缓存时间: 2026/05/08 09:34
相似文章
cuda-oxide: 一款实验性的 Rust-to-CUDA 编译器
cuda-oxide 是 NVIDIA 发布的一款实验性 Rust-to-CUDA 编译器后端,支持纯 Rust GPU 内核开发,无需外部语言绑定。
@npashi: 终于可以谈谈过去6个月我在@nvidia一直埋头做的事了。我们刚刚开源了cuda-oxide——一个实验性…
NVIDIA 已开源 cuda-oxide,这是一个实验性的 rustc 后端,允许开发者直接用纯 Rust 编写 CUDA 内核,无需 DSL、FFI 或源码到源码的转换。
@QingQ77: 用纯 Rust 实现 LLM 推理引擎,针对每种硬件×模型×量化组合定制 CUDA 内核,跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…
Atlas 是一个纯 Rust 实现的 LLM 推理引擎,通过为每种硬件×模型×量化组合定制 CUDA 内核,实现了比 vLLM 和 TensorRT-LLM 更快的推理速度。
介绍 Triton:神经网络开源 GPU 编程
# 介绍 Triton:神经网络开源 GPU 编程 来源:[https://openai.com/index/triton/](https://openai.com/index/triton/)  我们发布了 Triton 1.0,这是一种开源的类 Python 编程语言,使没有 CUDA 经验的研究人员能够编写高效的 GPU 代码——在大多数情况下与专家能够生成的代码性能相当。
Forge-UGC:面向通用图编译器的 FX 优化与寄存器图引擎
Forge-UGC 是一个四阶段通用图编译器,可在 NPU 上加速 Transformer 部署,相比 OpenVINO/ONNX Runtime,编译时间缩短 6.9–9.2 倍,推理延迟降低 18–36%,能耗减少 30–41%。