@populartourist: llama.cpp 发布版本 b9235 添加了一些用于提升推理性能的新工具。使用 llama.c 对 RTX 5090 上的 Qwen3.6 27B 进行了基准测试…

X AI KOLs Following 2026/05/20 13:08 工具

llama.cpp inference speculative-decoding benchmarking performance qwen rtx-5090

摘要

llama.cpp 发布版本 b9235 引入了推测性 n-gram 调优，在 RTX 5090 上的 Qwen3.6 27B 上实现了高达约 7 倍的吞吐量提升，其中 k4v96 配置在 10k 和 70k token 测试中表现出最佳的持续性能。

llama.cpp 发布版本 b9235 添加了一些用于提升推理性能的新工具。使用 llama.cpp 在 RTX 5090 上对 Qwen3.6 27B 进行基准测试，采用了推测性 n-gram 调优，在 10k 生成 token 的测试中。增加 --spec-ngram-map-k4v-size-m 参数可扩展解码吞吐量（predicted_per_second），使接受的输出 token 生成速度提升高达约 7 倍。随后对 k4v64 和 k4v96 样本进行了 7 次 50k token 生成测试，证实了持续的 10k token 性能，使得 k4v96 成为获胜者。 k4v128 也经过了测试，但在 7 次 50k token 运行中与 k4v96 相比稳定性较差，因此从图表中移除。实际结果仍为个别案例，尽管 k4v96 的接受率远低于传统的 --spec-draft-n-max 3，但仍能产生更快的评估速度——因此这种权衡似乎是值得的。以下评论中包含了所测试的 k4v96 样本的参数。

查看原文

查看缓存全文

缓存时间: 2026/05/20 16:33

llama.cpp 版本 b9235 增加了一些用于加速推理的新工具。

在 RTX 5090 上使用 llama.cpp 对 Qwen3.6 27B 进行了基准测试，采用了投机性 n-gram 调优，在 10k 生成 token 的测试中。

增加 --spec-ngram-map-k4v-size-m 的值，使得解码吞吐量（predicted_per_second）提高，接受的输出 token 生成速度最高提升约 7 倍。

随后针对 k4v64 和 k4v96 样本进行的 7x50k token 生成测试，确认了 10k-token 性能的持续性，使得 k4v96 成为赢家。

k4v128 也经过了测试，但在 7x50k token 运行中相比 k4v96 稳定性较差，因此已从图表中移除。

实际结果仍属轶事性，尽管 k4v96 的接受率远低于传统的 --spec-draft-n-max 3，但仍然实现了更快的评估速度——因此这种权衡似乎值得。

下方评论中给出了 k4v96 测试样本的标记。

--spec-type - draft-mtp,ngram-mod,ngram-map-k4v

- `--spec-draft-n-max`
- `"3"`
- `--spec-draft-p-min`
- `"0.0"`

- `--spec-ngram-mod-n-match`
- `"24"`
- `--spec-ngram-mod-n-min`
- `"48"`
- `--spec-ngram-mod-n-max`
- `"64"`

- `--spec-ngram-map-k4v-size-n`
- `"16"`
- `--spec-ngram-map-k4v-size-m`
- `"96"`
- `--spec-ngram-map-k4v-min-hits`
- `"1"`

我更倾向于 1M。

据我所知，如果你能使用 MTP 运行 Qwen3.6 27B 或 35B-A3B，这仅仅是对 MTP 的预测进行调优——因此从技术上讲应该会加快速度。

要知道结果，唯一的方法就是自己测试。

@populartourist: llama.cpp 发布版本 b9235 添加了一些用于提升推理性能的新工具。使用 llama.c 对 RTX 5090 上的 Qwen3.6 27B 进行了基准测试…

相似文章

在24GB显存环境中运行Qwen 3.6 27B的配置：后端对比、量化选择与设置（llama.cpp, ik_llama.cpp, BeeLlama, vllm）

BeeLlama.cpp：支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5，速度比基线快 2-3 倍（峰值 135 tps！）

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

提交意见反馈