双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s,性价比惊人

Reddit r/LocalLLaMA 新闻

摘要

有用户报告称,在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token,强调性价比出色,并想知道进一步优化是否能达到150 tok/s。

不到1000美元就能获得2023年的32GB显存,功耗约300瓦……而它的性能却超越了2026年最新款、售价5000美元的某品牌迷你PC。那么下一个问题是,这周末我能不能用同样的q4xl在CUDA 13.3上把它压榨到150 t/s?有人试过吗?
查看原文

相似文章