@populartourist: llama.cpp 发布版本 b9235 添加了一些用于提升推理性能的新工具。使用 llama.c 对 RTX 5090 上的 Qwen3.6 27B 进行了基准测试…

X AI KOLs Following 工具

摘要

llama.cpp 发布版本 b9235 引入了推测性 n-gram 调优,在 RTX 5090 上的 Qwen3.6 27B 上实现了高达约 7 倍的吞吐量提升,其中 k4v96 配置在 10k 和 70k token 测试中表现出最佳的持续性能。

llama.cpp 发布版本 b9235 添加了一些用于提升推理性能的新工具。 使用 llama.cpp 在 RTX 5090 上对 Qwen3.6 27B 进行基准测试,采用了推测性 n-gram 调优,在 10k 生成 token 的测试中。 增加 --spec-ngram-map-k4v-size-m 参数可扩展解码吞吐量(predicted_per_second),使接受的输出 token 生成速度提升高达约 7 倍。 随后对 k4v64 和 k4v96 样本进行了 7 次 50k token 生成测试,证实了持续的 10k token 性能,使得 k4v96 成为获胜者。 k4v128 也经过了测试,但在 7 次 50k token 运行中与 k4v96 相比稳定性较差,因此从图表中移除。 实际结果仍为个别案例,尽管 k4v96 的接受率远低于传统的 --spec-draft-n-max 3,但仍能产生更快的评估速度——因此这种权衡似乎是值得的。 以下评论中包含了所测试的 k4v96 样本的参数。
查看原文
查看缓存全文

缓存时间: 2026/05/20 16:33

llama.cpp 版本 b9235 增加了一些用于加速推理的新工具。

在 RTX 5090 上使用 llama.cpp 对 Qwen3.6 27B 进行了基准测试,采用了投机性 n-gram 调优,在 10k 生成 token 的测试中。

增加 --spec-ngram-map-k4v-size-m 的值,使得解码吞吐量(predicted_per_second)提高,接受的输出 token 生成速度最高提升约 7 倍。

随后针对 k4v64 和 k4v96 样本进行的 7x50k token 生成测试,确认了 10k-token 性能的持续性,使得 k4v96 成为赢家。

k4v128 也经过了测试,但在 7x50k token 运行中相比 k4v96 稳定性较差,因此已从图表中移除。

实际结果仍属轶事性,尽管 k4v96 的接受率远低于传统的 --spec-draft-n-max 3,但仍然实现了更快的评估速度——因此这种权衡似乎值得。

下方评论中给出了 k4v96 测试样本的标记。

  • --spec-type - draft-mtp,ngram-mod,ngram-map-k4v

    - `--spec-draft-n-max`
    - `"3"`
    - `--spec-draft-p-min`
    - `"0.0"`
    
    - `--spec-ngram-mod-n-match`
    - `"24"`
    - `--spec-ngram-mod-n-min`
    - `"48"`
    - `--spec-ngram-mod-n-max`
    - `"64"`
    
    - `--spec-ngram-map-k4v-size-n`
    - `"16"`
    - `--spec-ngram-map-k4v-size-m`
    - `"96"`
    - `--spec-ngram-map-k4v-min-hits`
    - `"1"`
    

我更倾向于 1M。

据我所知,如果你能使用 MTP 运行 Qwen3.6 27B 或 35B-A3B,这仅仅是对 MTP 的预测进行调优——因此从技术上讲应该会加快速度。

要知道结果,唯一的方法就是自己测试。

相似文章