rdna2

#rdna2

RDNA2 闪存注意力在官方版本中未启用，我通过这个构建启用了它，速度翻倍

Reddit r/LocalLLaMA ↗ · 2026-05-19

自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力，推理速度翻倍（70-80 tok/s，而官方版本崩溃）。仅确认与 Qwen3.6 35B/27B 配合使用。

0 人收藏 0 人点赞