双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s，性价比惊人

Reddit r/LocalLLaMA 2026/05/30 12:31 新闻

performance qwen local-llm nvidia benchmark

摘要

有用户报告称，在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token，强调性价比出色，并想知道进一步优化是否能达到150 tok/s。

不到1000美元就能获得2023年的32GB显存，功耗约300瓦……而它的性能却超越了2026年最新款、售价5000美元的某品牌迷你PC。那么下一个问题是，这周末我能不能用同样的q4xl在CUDA 13.3上把它压榨到150 t/s？有人试过吗？

查看原文

相似文章

Reddit r/LocalLLaMA

在 V100 GPU 上，使用 Qwen3.6 27B 模型，通过 128 个并发请求实现了每秒 1000 tokens 的生成速度，单用户下为 80 t/s。

Reddit r/LocalLLaMA

一位用户分享其配置：使用两块改装版RTX 2080 Ti GPU（每块22GB显存）通过llama.cpp以38 token/s运行Qwen 3.6 27B，并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。

Reddit r/LocalLLaMA

一位用户分享在单个 Nvidia P40 上使用 TheTom 的 TurboQuant 版 llama.cpp，以 Q4_K_M 量化方式和 100k 上下文运行 Qwen3.6 35B 模型，实现了 80 tok/s，并强调了多种优化。

Reddit r/LocalLLaMA

在 RTX 5090 上运行 Qwen3.6 27B，调整 MTP 和缓存设置后达到每秒 6.4k 个 token，展示了推理优化技术。

Reddit r/LocalLLaMA

使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试，生成吞吐量高达每秒 3500 个令牌。