标签
一位用户分享了在 Mac 上运行本地 LLM 的经验,指出与 Nvidia GPU 相比,AI 代理的提示处理较慢,并建议除非隐私问题,否则使用 Deepseek 等云端模型。
一个针对 llama.cpp 的拉取请求修复了使用 OpenCode 或 Pi 时出现的持续 prompt processing 问题。
一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。
本文分享了一个 llama.cpp 的性能优化技巧,展示了增大微批大小(`-ub`)并结合部分 CPU 卸载(`--n-cpu-moe`)可以显著提升 gpt-oss-120b 等大型模型在消费级 GPU 上的提示词处理速度。