llama.cpp b9158 刚刚发布了 RDNA3 Flash Attention 修复
摘要
llama.cpp b9158 已发布,修复了 RDNA3 GPU 上的 Flash Attention 问题,提升了 AMD 用户的性能。
[https://github.com/ggml-org/llama.cpp/releases](https://github.com/ggml-org/llama.cpp/releases)
相似文章
RDNA2 闪存注意力在官方版本中未启用,我通过这个构建启用了它,速度翻倍
自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力,推理速度翻倍(70-80 tok/s,而官方版本崩溃)。仅确认与 Qwen3.6 35B/27B 配合使用。
llama.cpp B9387 重大 AMD/ROCm PP 更新
llama.cpp 版本 b9387 引入了对 AMD CDNA 架构(MI100、MI200、MI300 系列)的 MFMA 支持,提升了数据中心 AMD GPU 上的处理流程性能。
@pupposandro: https://x.com/pupposandro/status/2054241934164492328
该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持,并展示了使用 ROCm 时推理性能的显著提升。
RDNA3上llama.cpp的Flash Attention:比Vulkan f16 K减少47% KV VRAM,在F16 K / q4_0 V上KLD几乎无损。第一部分。
一种针对RDNA3 GPU上llama.cpp的新packed16 K技术,相比Vulkan fp16将KV缓存VRAM减少47%,使用int8打包和原生dot4指令,以最小的KLD损失保持fp16质量的K值。
AMD Strix Halo 上的 Luce DFlash + PFlash:Qwen3.6-27B 解码速度提升 2.23 倍,预填充速度提升 3.05 倍(相较于 llama.cpp HIP)
Luce 为 AMD Strix Halo APU 发布了 DFlash 和 PFlash 支持,在 Qwen3.6-27B 模型上,其解码和预填充速度相比 llama.cpp HIP 分别提升了 2.23 倍和 3.05 倍。