tbq4

#tbq4

TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA ↗ · 2026-05-14

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行，实现在24GB显存上支持64k上下文，并具有有竞争力的token速率。

0 人收藏 0 人点赞