标签
一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。
UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本,在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s,速度提升1.4倍且精度零损失。
对 Qwen 3.6 27B 基准的系统性分析揭示,推测性推理(MTP)显著加速了编程任务,但会减慢创意写作速度,任务类型的影响远超量化或温度设置。
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件,用户可通过显著小于完整模型文件的下载大小来嫁接张量。