AMD / Strix Halo+ 用户的大新闻
摘要
AMD Strix Halo 设备上的 NPU 现在可用于 AI 推理,支持混合模式,结合 NPU 和 iGPU 以实现更快的提示处理。Lemonade 和 AMD 的 ROCm 等软件使之成为可能。
老实说,这对我来说也是新闻,但希望能对这里的其他人有所帮助!没错,NPU 终于可用了!!我使用 AMD Ryzen 395 Max AI+(或者管它叫什么名字 lol)大约一年了,一直只依赖 GGUF 和 Vulkan。我承认 AMD Ryzen AI 团队一直在努力让他们的 ROCm 软件跟上硬件的步伐。https://kyuz0.github.io/amd-strix-halo-toolboxes/ 这个数据库在 6 个月前看起来可没有那么 ROCm 友好。为什么我该在意?如果你拥有一台同时带有 NPU 和 iGPU 的设备(比如 Strix Halo 系列),那么你会想要混合模型。NPU 在处理提示方面快得惊人,而且可以与 GPU 并行运行。好的,什么是混合模式?LLM 可以只通过 NPU 运行,前提是它们为此而构建。可以看看 "FastFlowLM NPU" 模型作为例子。但混合模式结合了两者的优点,终于用上了近一年前(对有些人来说更久)购买的硬件。我该如何测试?下载 Lemonade!感谢他们主要专注于 Ryzen AI 并直接与 AMD 合作,我的机器终于能实现一年前无法完成的操作了,而 Lemonade 做到了这一点。它的界面极其简陋,我不推荐用于任何实际的代理/聊天/测试工具,但能用来做基本测试而不花上几天或几周时间?满分 10 分。链接在此:lemonade-server.ai 说到链接,这里了解更多关于混合模式以及如何制作自己的混合模型:https://ryzenai.docs.amd.com/en/latest/llm/overview.html 好了,就这些。只是想分享一下。真的很兴奋,我用了快一年的电脑在软件科学方面仍在进步。我现在只有一个愿望/请求:支持 MTP 的混合模型。Qwen 3.6 引入了 Unsloth 的加速技术,而 AMD 有一个关于“新处理器形态”的指南,因为 3.6 的 GGUF 不能简单地“转换为 ONNX”。这是那个指南:https://ryzenai.docs.amd.com/en/latest/oga_op_prepare.html 如果有人尝试了,请分享到 huggingface!顺便说一句,这些都是手打的,没有 LLM 辅助,只是一个痴迷于“新技术”的充满激情的开发者。
相似文章
xdna-top: 面向 Strix Halo (Ryzen AI Max) 的统一 NPU+iGPU 终端监视器 — 终于能看到 NPU 工作了
xdna-top 是一款终端监视器,可在 Ryzen AI Max/Strix Halo 系统上同时显示 NPU 和 iGPU 活动,提供 NPU 计数器增量的真实视图,而非虚假的利用率百分比。
ROCm 7.13 夜间版新增 Strix Halo 优化
AMD 的 ROCm 7.13 技术预览版为 Strix Halo(Ryzen AI Max 300)新增优化,并将 ROCprof Trace Decoder 开源。
@pupposandro: https://x.com/pupposandro/status/2054241934164492328
该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持,并展示了使用 ROCm 时推理性能的显著提升。
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
为最大化StrixHalo性能而折腾(+NVLink双eGPU 3090改造)
用户详细介绍了对配备双RTX 3090 eGPU和NVLink的AMD Strix Halo系统进行改造和基准测试的过程,发现对密集模型的LLM推理速度有所提升,尤其是使用vLLM时,并讨论了能效权衡。