thinking-budget

#thinking-budget

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

Reddit r/LocalLLaMA ↗ · 2026-04-21

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置，重点提示因内部推理无限制而耗尽 max_tokens 的陷阱，并给出用 per-request thinking_budget_tokens 的解决方案。

0 人收藏 0 人点赞