双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s,性价比惊人
摘要
有用户报告称,在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token,强调性价比出色,并想知道进一步优化是否能达到150 tok/s。
不到1000美元就能获得2023年的32GB显存,功耗约300瓦……而它的性能却超越了2026年最新款、售价5000美元的某品牌迷你PC。那么下一个问题是,这周末我能不能用同样的q4xl在CUDA 13.3上把它压榨到150 t/s?有人试过吗?
相似文章
在 V100 上使用 Qwen3.6 27B 实现每秒 1000 tokens 生成
在 V100 GPU 上,使用 Qwen3.6 27B 模型,通过 128 个并发请求实现了每秒 1000 tokens 的生成速度,单用户下为 80 t/s。
两块旧款RTX 2080 Ti,每块22GB显存,运行Qwen3.6 27B,使用f16 KV缓存达到38 token/s
一位用户分享其配置:使用两块改装版RTX 2080 Ti GPU(每块22GB显存)通过llama.cpp以38 token/s运行Qwen 3.6 27B,并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。
Qwen 3.6 在双 RTX PRO 6000 上的基准测试
使用 VLLM 在双 RTX PRO 6000 GPU 上对 Qwen 3.6 27B 和 35B 模型进行基准测试,生成吞吐量高达每秒 3500 个令牌。
@rumgewieselt:现在变得疯狂了……三块 1080 Ti(Pascal架构,33GB VRAM)Qwen 3.6 27B MTP 搭配 196K TurboQuant,持续 ~28-30 t/s
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。
@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.