qwen3.6

#qwen3.6

qwen3.6 突然中断

Reddit r/LocalLLaMA ↗ · 2天前

用户报告在使用 vLLM 配合特定 Docker 配置及投机解码（speculative decoding）部署 Qwen 3.6 模型时，模型会在任务中途停止生成。

0 人收藏 0 人点赞

#qwen3.6

Hugging Face Models Trending ↗ · 4天前缓存

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重，该模型由 Unsloth 进行优化，并采用多令牌预测（MTP）技术，以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

0 人收藏 0 人点赞

#qwen3.6

Reddit r/LocalLLaMA ↗ · 2026-04-23

用户展示了在本地使用 llama-server 运行 Qwen 3.6 27B/35B，将 Claude Code 的 API 成本从 142 美元降至 8 小时 vibe-coding 会话不到 4 美元，4500 美元的双 RTX 3090 设备可在 30 天内回本。

0 人收藏 0 人点赞

#qwen3.6

Reddit r/LocalLLaMA ↗ · 2026-04-22

用户基准测试 Qwen3.6-27B-Q8_0，在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文，询问该性能是否典型。

0 人收藏 0 人点赞

#qwen3.6

Reddit r/LocalLLaMA ↗ · 2026-04-22

社区成员通过复制健康邻居权重，修复了 Qwen3.6-35B-A3B MoE 中的“死亡”神经元，并放出修复后的 GGUF 与 FP8 safetensors 版本。

0 人收藏 0 人点赞

#qwen3.6

Reddit r/LocalLLaMA ↗ · 2026-04-21

开发者借助 Qwen3.6-35B 4-bit MLX 模型与 pi.dev 工具，在当前硬件上实现了高效的本地智能体编程，顺利完成了实际项目工单。

0 人收藏 0 人点赞

#qwen3.6

Reddit r/LocalLLaMA ↗ · 2026-04-21

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置，重点提示因内部推理无限制而耗尽 max_tokens 的陷阱，并给出用 per-request thinking_budget_tokens 的解决方案。

0 人收藏 0 人点赞

#qwen3.6

Hugging Face Models Trending ↗ · 2026-04-18 缓存

一个 35B 参数的 Qwen3.6 模型，使用 Claude-Opus 风格的思维链蒸馏数据微调，并以 GGUF 量化格式发布，可在本地高效推理。

0 人收藏 0 人点赞