AMD / Strix Halo+ 用户的大新闻

Reddit r/LocalLLaMA 新闻

摘要

AMD Strix Halo 设备上的 NPU 现在可用于 AI 推理,支持混合模式,结合 NPU 和 iGPU 以实现更快的提示处理。Lemonade 和 AMD 的 ROCm 等软件使之成为可能。

老实说,这对我来说也是新闻,但希望能对这里的其他人有所帮助!没错,NPU 终于可用了!!我使用 AMD Ryzen 395 Max AI+(或者管它叫什么名字 lol)大约一年了,一直只依赖 GGUF 和 Vulkan。我承认 AMD Ryzen AI 团队一直在努力让他们的 ROCm 软件跟上硬件的步伐。https://kyuz0.github.io/amd-strix-halo-toolboxes/ 这个数据库在 6 个月前看起来可没有那么 ROCm 友好。为什么我该在意?如果你拥有一台同时带有 NPU 和 iGPU 的设备(比如 Strix Halo 系列),那么你会想要混合模型。NPU 在处理提示方面快得惊人,而且可以与 GPU 并行运行。好的,什么是混合模式?LLM 可以只通过 NPU 运行,前提是它们为此而构建。可以看看 "FastFlowLM NPU" 模型作为例子。但混合模式结合了两者的优点,终于用上了近一年前(对有些人来说更久)购买的硬件。我该如何测试?下载 Lemonade!感谢他们主要专注于 Ryzen AI 并直接与 AMD 合作,我的机器终于能实现一年前无法完成的操作了,而 Lemonade 做到了这一点。它的界面极其简陋,我不推荐用于任何实际的代理/聊天/测试工具,但能用来做基本测试而不花上几天或几周时间?满分 10 分。链接在此:lemonade-server.ai 说到链接,这里了解更多关于混合模式以及如何制作自己的混合模型:https://ryzenai.docs.amd.com/en/latest/llm/overview.html 好了,就这些。只是想分享一下。真的很兴奋,我用了快一年的电脑在软件科学方面仍在进步。我现在只有一个愿望/请求:支持 MTP 的混合模型。Qwen 3.6 引入了 Unsloth 的加速技术,而 AMD 有一个关于“新处理器形态”的指南,因为 3.6 的 GGUF 不能简单地“转换为 ONNX”。这是那个指南:https://ryzenai.docs.amd.com/en/latest/oga_op_prepare.html 如果有人尝试了,请分享到 huggingface!顺便说一句,这些都是手打的,没有 LLM 辅助,只是一个痴迷于“新技术”的充满激情的开发者。
查看原文

相似文章