Llama.cpp 服务器连续运行约两周后表现失常?

Reddit r/LocalLLaMA 新闻

摘要

用户报告,在 llama.cpp 服务器上连续运行约两周后,Qwen3.6 模型的能力显著下降,且重启会话无法解决此问题。

我有两个独立实例分别运行 Qwen3.6 27b 和 Qwen3.6 35b 超过两周,现在它们比我刚启动时明显变笨了。这是常见现象吗?是我疯了吗?编辑:抱歉,我一直用的是 opencode,并且启动了新会话,但这并没有解决问题。
查看原文

相似文章

Qwen3.6 27B 在 vLLM 中的表现比在 llama.cpp 中更差

Reddit r/LocalLLaMA

一名用户报告称,Qwen3.6-27B 模型在使用 llama.cpp 时比使用 vLLM 表现更好且更可靠,并指出尽管进行了大量配置,vLLM 仍出现工具调用错误和“被切除脑叶”的行为。

qwen3.6 突然中断

Reddit r/LocalLLaMA

用户报告在使用 vLLM 配合特定 Docker 配置及投机解码(speculative decoding)部署 Qwen 3.6 模型时,模型会在任务中途停止生成。