qwen3.6

标签

Cards List
#qwen3.6

qwen3.6 突然中断

Reddit r/LocalLLaMA · 2天前

用户报告在使用 vLLM 配合特定 Docker 配置及投机解码(speculative decoding)部署 Qwen 3.6 模型时,模型会在任务中途停止生成。

0 人收藏 0 人点赞
#qwen3.6

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending · 4天前 缓存

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

0 人收藏 0 人点赞
#qwen3.6

Qwen 3.6 其实很适合 vibe-coding,而且比 Claude 便宜多了

Reddit r/LocalLLaMA · 2026-04-23

用户展示了在本地使用 llama-server 运行 Qwen 3.6 27B/35B,将 Claude Code 的 API 成本从 142 美元降至 8 小时 vibe-coding 会话不到 4 美元,4500 美元的双 RTX 3090 设备可在 30 天内回本。

0 人收藏 0 人点赞
#qwen3.6

大家在 Qwen3.6 27b 上跑出来的速度是多少?

Reddit r/LocalLLaMA · 2026-04-22

用户基准测试 Qwen3.6-27B-Q8_0,在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文,询问该性能是否典型。

0 人收藏 0 人点赞
#qwen3.6

Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein(神经元级手术)

Reddit r/LocalLLaMA · 2026-04-22

社区成员通过复制健康邻居权重,修复了 Qwen3.6-35B-A3B MoE 中的“死亡”神经元,并放出修复后的 GGUF 与 FP8 safetensors 版本。

0 人收藏 0 人点赞
#qwen3.6

首次实现本地真实编程工作

Reddit r/LocalLLaMA · 2026-04-21

开发者借助 Qwen3.6-35B 4-bit MLX 模型与 pi.dev 工具,在当前硬件上实现了高效的本地智能体编程,顺利完成了实际项目工单。

0 人收藏 0 人点赞
#qwen3.6

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

Reddit r/LocalLLaMA · 2026-04-21

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。

0 人收藏 0 人点赞
#qwen3.6

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Hugging Face Models Trending · 2026-04-18 缓存

一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈