rdna3

#rdna3

llama.cpp b9158 刚刚发布了 RDNA3 Flash Attention 修复

Reddit r/LocalLLaMA ↗ · 23小时前

llama.cpp b9158 已发布，修复了 RDNA3 GPU 上的 Flash Attention 问题，提升了 AMD 用户的性能。

0 人收藏 0 人点赞

#rdna3

Reddit r/LocalLLaMA ↗ · 昨天

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行，实现在24GB显存上支持64k上下文，并具有有竞争力的token速率。

0 人收藏 0 人点赞