gpu-tuning

#gpu-tuning

大幅提升 --n-cpu-moe 部分卸载模型的提示词处理速度

Reddit r/LocalLLaMA ↗ · 2026-05-12

本文分享了一个 llama.cpp 的性能优化技巧，展示了增大微批大小（`-ub`）并结合部分 CPU 卸载（`--n-cpu-moe`）可以显著提升 gpt-oss-120b 等大型模型在消费级 GPU 上的提示词处理速度。

0 人收藏 0 人点赞