rdna3

#rdna3

RDNA3上llama.cpp的Flash Attention：比Vulkan f16 K减少47% KV VRAM，在F16 K / q4_0 V上KLD几乎无损。第一部分。

Reddit r/LocalLLaMA ↗ · 2026-05-31

一种针对RDNA3 GPU上llama.cpp的新packed16 K技术，相比Vulkan fp16将KV缓存VRAM减少47%，使用int8打包和原生dot4指令，以最小的KLD损失保持fp16质量的K值。

0 人收藏 0 人点赞

#rdna3

Reddit r/LocalLLaMA ↗ · 2026-05-24

hipEngine是一个新的开源、ROCm原生LLM推理引擎，专为AMD RDNA3 GPU设计，在Qwen 3.6模型上相比llama.cpp提供有竞争力的预填充和解码性能。

0 人收藏 0 人点赞

#rdna3

Reddit r/LocalLLaMA ↗ · 2026-05-15

llama.cpp b9158 已发布，修复了 RDNA3 GPU 上的 Flash Attention 问题，提升了 AMD 用户的性能。

0 人收藏 0 人点赞

#rdna3

Reddit r/LocalLLaMA ↗ · 2026-05-14

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行，实现在24GB显存上支持64k上下文，并具有有竞争力的token速率。

0 人收藏 0 人点赞