AMD / Strix Halo+ 用户的大新闻

Reddit r/LocalLLaMA 2026/06/24 15:16 新闻

amd strix-halo npu hybrid-model rocm lemonade ai-inference

摘要

AMD Strix Halo 设备上的 NPU 现在可用于 AI 推理，支持混合模式，结合 NPU 和 iGPU 以实现更快的提示处理。Lemonade 和 AMD 的 ROCm 等软件使之成为可能。

老实说，这对我来说也是新闻，但希望能对这里的其他人有所帮助！没错，NPU 终于可用了！！我使用 AMD Ryzen 395 Max AI+（或者管它叫什么名字 lol）大约一年了，一直只依赖 GGUF 和 Vulkan。我承认 AMD Ryzen AI 团队一直在努力让他们的 ROCm 软件跟上硬件的步伐。https://kyuz0.github.io/amd-strix-halo-toolboxes/ 这个数据库在 6 个月前看起来可没有那么 ROCm 友好。为什么我该在意？如果你拥有一台同时带有 NPU 和 iGPU 的设备（比如 Strix Halo 系列），那么你会想要混合模型。NPU 在处理提示方面快得惊人，而且可以与 GPU 并行运行。好的，什么是混合模式？LLM 可以只通过 NPU 运行，前提是它们为此而构建。可以看看 "FastFlowLM NPU" 模型作为例子。但混合模式结合了两者的优点，终于用上了近一年前（对有些人来说更久）购买的硬件。我该如何测试？下载 Lemonade！感谢他们主要专注于 Ryzen AI 并直接与 AMD 合作，我的机器终于能实现一年前无法完成的操作了，而 Lemonade 做到了这一点。它的界面极其简陋，我不推荐用于任何实际的代理/聊天/测试工具，但能用来做基本测试而不花上几天或几周时间？满分 10 分。链接在此：lemonade-server.ai 说到链接，这里了解更多关于混合模式以及如何制作自己的混合模型：https://ryzenai.docs.amd.com/en/latest/llm/overview.html 好了，就这些。只是想分享一下。真的很兴奋，我用了快一年的电脑在软件科学方面仍在进步。我现在只有一个愿望/请求：支持 MTP 的混合模型。Qwen 3.6 引入了 Unsloth 的加速技术，而 AMD 有一个关于“新处理器形态”的指南，因为 3.6 的 GGUF 不能简单地“转换为 ONNX”。这是那个指南：https://ryzenai.docs.amd.com/en/latest/oga_op_prepare.html 如果有人尝试了，请分享到 huggingface！顺便说一句，这些都是手打的，没有 LLM 辅助，只是一个痴迷于“新技术”的充满激情的开发者。

查看原文

AMD / Strix Halo+ 用户的大新闻

相似文章

xdna-top: 面向 Strix Halo (Ryzen AI Max) 的统一 NPU+iGPU 终端监视器 — 终于能看到 NPU 工作了

ROCm 7.13 夜间版新增 Strix Halo 优化

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

@pupposandro：在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU（gfx1151，……）发布了 DFlash + PFlash

为最大化StrixHalo性能而折腾（+NVLink双eGPU 3090改造）

提交意见反馈