rdna3

#rdna3

Flash Attention for llama.cpp on RDNA3: 47% less KV VRAM than Vulkan f16 K, KLD almost losselss on F16 K / q4_0 V. Part 1.

Reddit r/LocalLLaMA ↗ · 2026-05-31

A new packed16 K technique for llama.cpp on RDNA3 GPUs reduces KV cache VRAM by 47% compared to Vulkan fp16, using int8 packing and native dot4 instructions to maintain fp16-quality K values with minimal KLD loss.

0 favorites 0 likes

#rdna3

hipEngine: Fast Native Qwen 3.6 Inference for RDNA3 (Strix Halo, 7900 XTX)

Reddit r/LocalLLaMA ↗ · 2026-05-24

hipEngine is a new open-source ROCm-native LLM inference engine for AMD RDNA3 GPUs, offering competitive prefill and decode performance for Qwen 3.6 models compared to llama.cpp.

0 favorites 0 likes

#rdna3

RDNA3 Flash Attention fix just dropped by llama.cpp b9158

Reddit r/LocalLLaMA ↗ · 2026-05-15

llama.cpp b9158 has been released with a fix for Flash Attention on RDNA3 GPUs, improving performance for AMD users.

0 favorites 0 likes

#rdna3

Turboquant+MTP for ROCm(Llama CPP)

Reddit r/LocalLLaMA ↗ · 2026-05-14

A developer gets TurboQuant TBQ4 KV cache and Multi-Token Prediction working on AMD ROCm for RDNA3 GPUs in llama.cpp, enabling 64k context on 24 GB VRAM with competitive token rates.

0 favorites 0 likes

rdna3

Flash Attention for llama.cpp on RDNA3: 47% less KV VRAM than Vulkan f16 K, KLD almost losselss on F16 K / q4_0 V. Part 1.

hipEngine: Fast Native Qwen 3.6 Inference for RDNA3 (Strix Halo, 7900 XTX)

RDNA3 Flash Attention fix just dropped by llama.cpp b9158

Turboquant+MTP for ROCm(Llama CPP)

Submit Feedback