llama.cpp b9158 刚刚发布了 RDNA3 Flash Attention 修复

Reddit r/LocalLLaMA 2026/05/15 00:50 工具

flash-attention rdna3 bug-fix llama-cpp inference amd-gpu release

摘要

llama.cpp b9158 已发布，修复了 RDNA3 GPU 上的 Flash Attention 问题，提升了 AMD 用户的性能。

[https://github.com/ggml-org/llama.cpp/releases](https://github.com/ggml-org/llama.cpp/releases)

查看原文

相似文章

X AI KOLs Timeline

该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持，并展示了使用 ROCm 时推理性能的显著提升。

Reddit r/LocalLLaMA

Luce 为 AMD Strix Halo APU 发布了 DFlash 和 PFlash 支持，在 Qwen3.6-27B 模型上，其解码和预填充速度相比 llama.cpp HIP 分别提升了 2.23 倍和 3.05 倍。

X AI KOLs Following

一套新工具集（DFlash + PFlash）在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度，展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。

X AI KOLs Following

PFlash 现在支持在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)，实现了 111 tok/s 的解码速度，预填充速度比 llama.cpp 快 5.4 倍，并在高达 131K 上下文中通过 NIAH 测试。

X AI KOLs Following

DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核，在 M5 Max GPU 上可显著降低峰值内存占用，并在长上下文场景下实现 2.2 倍吞吐量提升。