如果你使用Windows，请禁用内存压缩以消除瓶颈！

Reddit r/LocalLLaMA 2026/05/14 11:07 工具

windows performance memory-compression ai-workload amd-gpu llm optimization

摘要

一位用户分享了通过命令'Disable-mmagent -mc'禁用内存压缩来解决Windows 11中AMD GPU运行AI模型时的性能瓶颈问题。

这是对以下帖子的跟进：[https://www.reddit.com/r/LocalLLaMA/comments/1ta3ben/dont\_you\_have\_issues\_in\_w11\_with\_amd\_gpu\_where/](https://www.reddit.com/r/LocalLLaMA/comments/1ta3ben/dont_you_have_issues_in_w11_with_amd_gpu_where/) 我通过管理员终端禁用内存压缩解决了这个无休止的问题：`Disable-mmagent -mc` 所有问题都解决了，我可以打开任何游戏，AI也不会像以前那样变慢（即使游戏关闭时也一样！）

查看原文

相似文章

大幅提升 --n-cpu-moe 部分卸载模型的提示词处理速度

Reddit r/LocalLLaMA

本文分享了一个 llama.cpp 的性能优化技巧，展示了增大微批大小（`-ub`）并结合部分 CPU 卸载（`--n-cpu-moe`）可以显著提升 gpt-oss-120b 等大型模型在消费级 GPU 上的提示词处理速度。

在配备 24GB 内存的 M4 芯片上运行本地模型

Hacker News Top

指南介绍了如何使用 LM Studio、Ollama 等工具，在拥有 24GB 内存的 M4 MacBook 上运行 Qwen 3.5-9B 等本地 AI 模型，并提供了优化性能的具体配置建议。

为什么现有硬件难以应对 2026 年多智能体工作流（Mac Studio vs. RTX 5090）

Reddit r/ArtificialInteligence

本地运行多智能体 AI 工作流的硬件需求对比，重点探讨显存（VRAM）与 KV Cache 的瓶颈限制。

停止浪费电力

Reddit r/LocalLLaMA

作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时，在不牺牲推理速度的前提下，将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数，用户可显著降低发热与噪音，并延长硬件使用寿命。

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存，在有限显存（8-12GB）上提升MoE模型（如Qwen3.6 35B A3B）的性能，基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

提交意见反馈