标签
llama.cpp b9158 已发布,修复了 RDNA3 GPU 上的 Flash Attention 问题,提升了 AMD 用户的性能。
一位用户分享了通过命令'Disable-mmagent -mc'禁用内存压缩来解决Windows 11中AMD GPU运行AI模型时的性能瓶颈问题。
在 AMD MI50 GPU 上使用自定义 vllm 分支运行 Qwen 3.6 27B 的基准测试结果,实现了 52.8 tokens/s TG 和 1569 tokens/s PP,无量化或 MTP,证明了在 2018 年硬件上用于代理任务的可行性。
一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
作者询问2026年中AMD的ROCm生态系统在AI训练领域的当前可行性,将其与NVIDIA的CUDA进行比较,并询问它是否已达到PyTorch的“开箱即用”阶段。
用户演示了在 AMD 7900 XTX 显卡上本地自主运行 Qwen 3.6 并创建 Android 应用——这一曾被视为科幻的场景如今已成为现实。