Llama.cpp 服务器连续运行约两周后表现失常?
摘要
用户报告,在 llama.cpp 服务器上连续运行约两周后,Qwen3.6 模型的能力显著下降,且重启会话无法解决此问题。
我有两个独立实例分别运行 Qwen3.6 27b 和 Qwen3.6 35b 超过两周,现在它们比我刚启动时明显变笨了。这是常见现象吗?是我疯了吗?编辑:抱歉,我一直用的是 opencode,并且启动了新会话,但这并没有解决问题。
相似文章
qwen3.6 突然中断
用户报告在使用 vLLM 配合特定 Docker 配置及投机解码(speculative decoding)部署 Qwen 3.6 模型时,模型会在任务中途停止生成。
8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱
作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。
@pcuenq: 我的数据点:使用 Pi + llama.cpp + Qwen-3.6-35B-A3B 并行处理两个项目(我更喜欢 MoE 模型)。这项工作……
有用户报告称,在较旧的 M1 Max 机器上使用 Pi 和 llama.cpp 配合 Qwen-3.6-35B-A3B 模型成功运行并行项目,证明了其实际可用性。
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
@ggerganov:llama-server -hf ggml-org/Qwen3.6-27B-GGUF --spec-default
Georgi Gerganov 分享了一条一行命令,用 llama-server 以默认投机解码设置启动量化版 27B Qwen3.6 模型。