Zluda 6 发布(在非NVIDIA GPU上运行未经修改的CUDA应用)
摘要
ZLUDA 6 已发布,允许未经修改的CUDA应用在非NVIDIA GPU上运行,新增对PhysX和Blender的支持。
暂无内容
查看缓存全文
缓存时间: 2026/06/30 15:37
# ZLUDA - ZLUDA 2026年Q1&Q2更新
来源:https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/
## ZLUDA 允许在非NVIDIA GPU上运行未修改的CUDA应用程序
## ZLUDA 2026年Q1&Q2更新——回归初心2026-06-29
大家好,欢迎阅读最新的 ZLUDA 更新!由于跳过了上一次更新,这期特刊涵盖了自今年年初以来 ZLUDA 的所有开发进展。我们现在有两大新工作负载:PhysX(PhysX 预发布版 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/#physx-pre-alpha))和 Blender(纹理支持 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/#textures-support))。其中大部分与 Windows 支持的显著改进 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/#much-improved-windows-support) 有所重叠。此外,还有一系列持续的小功能和对现有工作负载的改进(更好的机器学习支持 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/#better-ml-support))。这些最终促成了一个重要的新版本发布(版本 6 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/#version-6))。一些读者可能还对项目的全新方向 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/#the-new-direction-of-the-project) 感兴趣。
### 版本 6
我终于标记了一个新的主要版本。提醒一下,ZLUDA 遵循持续开发模式。一个主要版本并不代表添加了某个特定功能或引入了兼容性中断,而是表明取得了重大进展,值得再次尝试。版本 6 与最新的预览构建(6-preview.79)完全相同。
### PhysX 预发布版
由于 PC 组件价格居高不下,我们都被迫重温经典游戏。ZLUDA 已经为你考虑到了。这个长期存在的 PR(#651 (https://github.com/vosen/ZLUDA/pull/651))尚未完全完成,但它增加了对 32 位 PhysX 的支持。这意味着,在某些依赖 PhysX 的老游戏中,你将能够通过 AMD GPU 获得更高的帧率。在一些游戏中,AMD GPU 用户也将首次享受到额外的视觉效果,如碎片和火焰。
各种 PhysX 示例在 AMD GPU 上运行:
更有趣的是,这是一张在 AMD GPU 上运行的《黑手党2》(2010 年原始版本)内置基准测试截图。所有设置均为最高,并且开启了 PhysX:
ZLUDA 关闭 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/zluda_off.jpg)**ZLUDA 关闭**(点击图片查看全屏)
ZLUDA 开启 (https://vosen.github.io/ZLUDA/blog/zluda-update-q1q2-2026/zluda_on.jpg)**ZLUDA 开启**(点击图片查看全屏)
支持尚未完全:流体模拟可能存在问题,并且当前将 ZLUDA 加载到 Steam 游戏中的方法不佳。我只在我自己的 PC 上尝试过,它的 GPU 配置比较特殊。尽管如此,如果你习惯于编辑源代码并自行构建 ZLUDA,你可以试一试。对于其他人,我建议关注该 PR,等待它被合并并包含在预览构建中。请在 PR 或 Discord 上留下你的反馈。
PCGamingWiki 维护了一份 PhysX 游戏列表 (https://www.pcgamingwiki.com/wiki/List_of_games_that_support_Nvidia_PhysX)。请注意,该列表混合了 32 位 PhysX 和 64 位 GameWorks。这是两种完全不同的技术。
### 纹理支持
ZLUDA 现在有了纹理支持(#625 (https://github.com/vosen/ZLUDA/pull/625))。虽然非常基础,只涵盖了几个用例,但足以支持 PhysX 和 Blender 所使用的功能。这也意味着 Blender 现在可以在 ZLUDA 上运行了。
### Windows 支持显著改进
历史上,ZLUDA 对 Windows 的支持一直落后于对 Linux 的支持。最大的问题在于性能库(cuBLAS、cuDNN 等)。当你在 Linux 上安装 ROCm 时,你会一次性获得所有兼容版本的组件(除非你明确选择退出):用户态驱动、性能库、监控库等。在 Windows 上,你只会获得与显卡驱动(Adrenalin)一起安装的运行时驱动。至于 ROCm 的其余部分,嗯,你得自己去找。你可以使用官方支持的过时 ROCm SDK,或者使用最新但有缺陷的每日构建。虽然 ZLUDA 不能帮你解决这个问题,但它现在更加用户友好,会明确告诉你是否缺少库并指示你如何安装它(#612 (https://github.com/vosen/ZLUDA/pull/612))。ZLUDA Windows 加载器(`zluda.exe`)也变得更加稳健,现在会自动处理性能库的加载(而不是要求用户传递正确的标志)。
### 更好的机器学习支持
我们收到了一些来自 PyTorch 用户的 ZLUDA 跟踪信息,由此驱动了一系列 PR。新增指令在 #599 (https://github.com/vosen/ZLUDA/pull/599)、#605 (https://github.com/vosen/ZLUDA/pull/605)、#607 (https://github.com/vosen/ZLUDA/pull/607)、#609 (https://github.com/vosen/ZLUDA/pull/609)、#642 (https://github.com/vosen/ZLUDA/pull/642)、#644 (https://github.com/vosen/ZLUDA/pull/644)、#629 (https://github.com/vosen/ZLUDA/pull/629)。编译器问题修复在 #583 (https://github.com/vosen/ZLUDA/pull/583)、#588 (https://github.com/vosen/ZLUDA/pull/588)、#585 (https://github.com/vosen/ZLUDA/pull/585)、#596 (https://github.com/vosen/ZLUDA/pull/596)、#610 (https://github.com/vosen/ZLUDA/pull/610)、#601 (https://github.com/vosen/ZLUDA/pull/601)、#603 (https://github.com/vosen/ZLUDA/pull/603)。性能库的改进在 #587 (https://github.com/vosen/ZLUDA/pull/587)、#615 (https://github.com/vosen/ZLUDA/pull/615)、#619 (https://github.com/vosen/ZLUDA/pull/619)、#620 (https://github.com/vosen/ZLUDA/pull/620)、#621 (https://github.com/vosen/ZLUDA/pull/621)、#624 (https://github.com/vosen/ZLUDA/pull/624)。我无法分析收到的每一个跟踪信息,但我会尽力查看尽可能多的内容。
### 项目的新方向
一些新添加的功能可能会让那些密切关注 ZLUDA 开发的人感到惊讶。其中大部分之前明确不在 ZLUDA 的路线图中。计划发生了变化。ZLUDA 的开发不再获得商业资助,所以它又变回了我的周末项目。这意味着优先级不再是商业上合理的,而是我自己觉得最有趣的内容。这就是突然添加纹理、PhysX 和更好 Windows 支持的原因。
这也意味着 Violet 成为了我们的第一位荣誉开发者(Developer Emeritus)。
这一切大约发生在三个月前,从那时起 ZLUDA 就成了我有趣的业余项目。我仍然觉得它很有趣,开发也在继续。然而,我无法在上面花费太多时间,所以未来我可能会减少更新频率,不再每个季度都发。不过,我希望你仍然会喜欢新版本的 ZLUDA,即使发布频率降低了。
相似文章
AMD的Lemonade SDK为本地AI添加了NVIDIA CUDA支持
AMD的Lemonade SDK在10.7版本中为本地AI添加了NVIDIA CUDA支持,使得在竞争对手的GPU上也能获得相同的本地AI服务器体验。该版本还引入了lemonade bench,用于跨后端的LLM基准测试,并提供了更广泛的Vulkan支持。
llama.cpp b9095 发布!支持双 Blackwell PCIe 显卡无需 NCCL 的张量并行
llama.cpp b9095 版本引入了针对双 Blackwell PCIe GPU 的免 NCCL 张量并行功能,使得在不依赖 NCCL 的情况下也能实现高效的多 GPU 推理。
nvidia/Qwen3.6-27B-NVFP4
NVIDIA发布了Qwen3.6-27B-NVFP4,这是阿里巴巴Qwen3.6-27B模型的量化版本,针对在NVIDIA GPU上的部署进行了优化,支持文本、图像和视频输入。
mistral.rs v0.8.2:在GB10、B200和H100上CUDA推理速度比llama.cpp快2.8倍
Mistral.rs v0.8.2 在 GB10、B200 和 H100 GPU 上的 CUDA 推理速度比 llama.cpp 快达 2.8 倍,Gemma 4 模型的基准测试显示,在各种量化类型上均有一致的性能提升。
nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。