@populartourist: llama.cpp 发布版本 b9235 添加了一些用于提升推理性能的新工具。使用 llama.c 对 RTX 5090 上的 Qwen3.6 27B 进行了基准测试…
摘要
llama.cpp 发布版本 b9235 引入了推测性 n-gram 调优,在 RTX 5090 上的 Qwen3.6 27B 上实现了高达约 7 倍的吞吐量提升,其中 k4v96 配置在 10k 和 70k token 测试中表现出最佳的持续性能。
查看缓存全文
缓存时间: 2026/05/20 16:33
llama.cpp 版本 b9235 增加了一些用于加速推理的新工具。
在 RTX 5090 上使用 llama.cpp 对 Qwen3.6 27B 进行了基准测试,采用了投机性 n-gram 调优,在 10k 生成 token 的测试中。
增加 --spec-ngram-map-k4v-size-m 的值,使得解码吞吐量(predicted_per_second)提高,接受的输出 token 生成速度最高提升约 7 倍。
随后针对 k4v64 和 k4v96 样本进行的 7x50k token 生成测试,确认了 10k-token 性能的持续性,使得 k4v96 成为赢家。
k4v128 也经过了测试,但在 7x50k token 运行中相比 k4v96 稳定性较差,因此已从图表中移除。
实际结果仍属轶事性,尽管 k4v96 的接受率远低于传统的 --spec-draft-n-max 3,但仍然实现了更快的评估速度——因此这种权衡似乎值得。
下方评论中给出了 k4v96 测试样本的标记。
-
--spec-type-draft-mtp,ngram-mod,ngram-map-k4v- `--spec-draft-n-max` - `"3"` - `--spec-draft-p-min` - `"0.0"` - `--spec-ngram-mod-n-match` - `"24"` - `--spec-ngram-mod-n-min` - `"48"` - `--spec-ngram-mod-n-max` - `"64"` - `--spec-ngram-map-k4v-size-n` - `"16"` - `--spec-ngram-map-k4v-size-m` - `"96"` - `--spec-ngram-map-k4v-min-hits` - `"1"`
我更倾向于 1M。
据我所知,如果你能使用 MTP 运行 Qwen3.6 27B 或 35B-A3B,这仅仅是对 MTP 的预测进行调优——因此从技术上讲应该会加快速度。
要知道结果,唯一的方法就是自己测试。
相似文章
在24GB显存环境中运行Qwen 3.6 27B的配置:后端对比、量化选择与设置(llama.cpp, ik_llama.cpp, BeeLlama, vllm)
本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端,发现搭配IQ4_KS量化的ik_llama.cpp性能最佳(预填充1261 tok/s,解码72.9 tok/s)。
BeeLlama.cpp:支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5,速度比基线快 2-3 倍(峰值 135 tps!)
BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支,引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术,使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍,这是我的发现(RTX 6000 PRO)。
使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。