如果你使用Windows,请禁用内存压缩以消除瓶颈!
摘要
一位用户分享了通过命令'Disable-mmagent -mc'禁用内存压缩来解决Windows 11中AMD GPU运行AI模型时的性能瓶颈问题。
这是对以下帖子的跟进:[https://www.reddit.com/r/LocalLLaMA/comments/1ta3ben/dont\_you\_have\_issues\_in\_w11\_with\_amd\_gpu\_where/](https://www.reddit.com/r/LocalLLaMA/comments/1ta3ben/dont_you_have_issues_in_w11_with_amd_gpu_where/) 我通过管理员终端禁用内存压缩解决了这个无休止的问题:`Disable-mmagent -mc` 所有问题都解决了,我可以打开任何游戏,AI也不会像以前那样变慢(即使游戏关闭时也一样!)
相似文章
大幅提升 --n-cpu-moe 部分卸载模型的提示词处理速度
本文分享了一个 llama.cpp 的性能优化技巧,展示了增大微批大小(`-ub`)并结合部分 CPU 卸载(`--n-cpu-moe`)可以显著提升 gpt-oss-120b 等大型模型在消费级 GPU 上的提示词处理速度。
在配备 24GB 内存的 M4 芯片上运行本地模型
指南介绍了如何使用 LM Studio、Ollama 等工具,在拥有 24GB 内存的 M4 MacBook 上运行 Qwen 3.5-9B 等本地 AI 模型,并提供了优化性能的具体配置建议。
为什么现有硬件难以应对 2026 年多智能体工作流(Mac Studio vs. RTX 5090)
本地运行多智能体 AI 工作流的硬件需求对比,重点探讨显存(VRAM)与 KV Cache 的瓶颈限制。
停止浪费电力
作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时,在不牺牲推理速度的前提下,将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数,用户可显著降低发热与噪音,并延长硬件使用寿命。
@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…
解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。