power-management

#power-management

@ivanfioravanti: M5 Max 的有趣视频，探讨低、自动和高性能模式对推理的影响。- 未连接外部显示器……

X AI KOLs Timeline ↗ · 昨天

一项性能测试展示了低、自动和高性能模式对 M5 Max MacBook 上大型语言模型（LLM）推理速度的影响，显示出在 Token 生成率和功耗方面存在显著差异。

0 人收藏 0 人点赞

#power-management

Reddit r/LocalLLaMA ↗ · 昨天

作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时，在不牺牲推理速度的前提下，将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数，用户可显著降低发热与噪音，并延长硬件使用寿命。

0 人收藏 0 人点赞