[P] 读了太多架构手册后，我构建了一个可移植的GPU ISA [P]

Reddit r/MachineLearning 2026/05/26 13:36 工具

gpu isa portable toolchain open-source architecture

摘要

一个名为WAVE的可移植GPU ISA，将内核编译为通用二进制文件，并翻译成特定厂商的后端（Metal、PTX、HIP、SYCL），已在多个GPU上验证结果。

我一直在业余时间阅读GPU架构文档。NVIDIA PTX、AMD ISA参考指南、Intel Xe、反向工程得到的Apple GPU资料。跨越16种微架构，超过5000页。过了一段时间，你会发现所有四家厂商都在做同样的11件事，只是名称不同。于是，我编写了一份涵盖所有这些的规范，并围绕它构建了一个工具链。它叫WAVE。你只需编写一次内核，它就会被编译成一个可移植的二进制文件，然后通过轻量级后端将其转换为Metal、PTX、HIP或SYCL。同一个二进制文件已在Apple M4 Pro、NVIDIA T4和AMD MI300X上验证通过。我的合著者Onyinye构建了PyTorch集成，并在所有后端上获得了相同的训练结果。请上GitHub点星：[https://github.com/Oabraham1/wave](https://github.com/Oabraham1/wave) 预印本：[https://arxiv.org/abs/2603.28793](https://arxiv.org/abs/2603.28793) 阅读完整文档及构建过程：[https://wave.ojima.me](https://wave.ojima.me) pip install wave-gpu

查看原文

[P] 读了太多架构手册后，我构建了一个可移植的GPU ISA [P]

相似文章

一个可定制的编译器，用于为AI模型生成高效的融合GPU内核 [P]

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

@elliotarledge：Cerebras 联合创始人解释其 WSE 的简化设计，与 NVIDIA 的传统 GPU 相比。

https://www.youtube.com/watch?v=aE0onltJlOo

让编写跨平台 SIMD 代码变得愉快

提交意见反馈