Llama.cpp 服务器连续运行约两周后表现失常？

Reddit r/LocalLLaMA 2026/05/14 23:50 新闻

llama-cpp model-degradation qwen inference server bug

摘要

用户报告，在 llama.cpp 服务器上连续运行约两周后，Qwen3.6 模型的能力显著下降，且重启会话无法解决此问题。

我有两个独立实例分别运行 Qwen3.6 27b 和 Qwen3.6 35b 超过两周，现在它们比我刚启动时明显变笨了。这是常见现象吗？是我疯了吗？编辑：抱歉，我一直用的是 opencode，并且启动了新会话，但这并没有解决问题。

查看原文

相似文章

Reddit r/LocalLLaMA

用户报告在使用 vLLM 配合特定 Docker 配置及投机解码（speculative decoding）部署 Qwen 3.6 模型时，模型会在任务中途停止生成。

Reddit r/LocalLLaMA

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置，重点提示因内部推理无限制而耗尽 max_tokens 的陷阱，并给出用 per-request thinking_budget_tokens 的解决方案。

X AI KOLs Timeline

有用户报告称，在较旧的 M1 Max 机器上使用 Pi 和 llama.cpp 配合 Qwen-3.6-35B-A3B 模型成功运行并行项目，证明了其实际可用性。

Reddit r/LocalLLaMA

社区讨论帖，分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。

X AI KOLs Following

Georgi Gerganov 分享了一条一行命令，用 llama-server 以默认投机解码设置启动量化版 27B Qwen3.6 模型。