TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA 工具

摘要

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。

TL;DR: 我成功让TBQ4 KV缓存+MTP在llama.cpp中运行于AMD ROCm的RX 7900 XTX / RDNA3 / gfx1100。主要成果:64k上下文可容纳在24 GB显存中,并且保持可用性。 Branch: tbq4-rdna3-experiment (https://github.com/DrBearJew/llama.cpp/tree/tbq4-rdna3-experiment) 我深入研究了AMD上的TurboQuant / TBQ4 + MTP,因为现有的AMD路径对我的配置不完整或有缺陷。此分支使用带有内联TBQ4反量化的ROCm VEC Flash Attention路径。 测试设置: \\- RX 7900 XTX, 24 GB \\- RDNA3 / gfx1100 \\- ROCm / HIP \\- Qwen3.6-27B Q4\\_K\\_M MTP GGUF \\- tbq4\\_0 KV cache \\- MTP with --spec-draft-n-max 3 当前数据: \\- tbq4\\_0, 64k ctx: 38–54 tok/s, ~20 GB VRAM \\- 预填充:16k时537.7 tok/s;64k测试中360.8 tok/s \\- q8\\_0基线:16k时约49.8 tok/s,32k时约31 tok/s,占用约22–23 GB显存 注意事项: \\- RX 7900 XTX 是RDNA3 / gfx1100,而非RDNA3.5。 \\- 已启用RDNA3.5 / RDNA4但未经测试。 \\- 存在RotorQuant / PlanarQuant / IsoQuant但未验证。 \\- 这些是来自不同运行的数据点,并非完整的缩放曲线。 欢迎新测试者。有用的Bug报告比炒作更有价值。
查看原文

相似文章

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。