我无法让Qwen3.6 27B超越Qwen-Coder-Next,不确定原因
摘要
用户报告称,Qwen-Coder-Next 在实际测试和合成基准测试中均优于 Qwen3.6 27B,尽管其他人称赞 27B,用户寻求关于可能设置问题的建议。
在我的实际使用(opencode)和合成基准测试中,Coder-Next(Q5)碾压了整个Qwen3.6系列,包括27B Dense模型(全部Q8)。其他人都称赞27B更优秀,是一个非常棒的模型,但我无法复现任何这些结果。Coder-Next似乎表现超常,而27B表现不佳。我正在使用模型卡上的推荐设置,并且尝试了几个27B模型,包括Unsloth发布的MTP版本。我使用的是llama.cpp,搭配96GB版本的Strix Halo机器。我原以为是速度导致它出错,但35BA3B的表现也很差。有人遇到过这种情况吗?27B只是在与其他GPU规模的模型进行比较,还是我的设置有什么不优化之处?
相似文章
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
有人用 QwQ-32B 吗?它已经发布超过一年了?Qwen 3.6 27b 基本上取代它了吗?
讨论老款 QwQ-32B 模型相较于 Qwen 3.6 27b 和 Gemma 4 等新替代品是否仍有价值,尤其是在编程任务方面。
@KyleHessling1:兄弟们,我彻底震惊了。Qwen 3.6 27B 的提升幅度,就像直接从 Qwen 27B 3.5 跨到 Qwen 4。我刚跑完一整套前端设计测试和智能体基准,全部由它完成。结论:效果远超预期,我完全惊呆。
早期用户反馈:Qwen 3.6 27B 相比 3.5 性能暴涨,在前端设计与智能体基准上表现尤为亮眼。
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。
需要第二双眼睛,这个Qwen3.6 27B量化方案总是用更少的思考且正确
作者分享了一个Qwen3.6 27B的量化方案,该方案使模型使用显著更少的思考令牌,同时仍然产生正确的答案,从而在数学基准测试中实现更快的推理。