标签
一条推文推荐Nvidia RTX 4090使用--ddtree-budget 36,声称在Qwen3.6_27B解码时实现2.5倍加速。
作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时,在不牺牲推理速度的前提下,将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数,用户可显著降低发热与噪音,并延长硬件使用寿命。