好吧,27B 让我信服了
摘要
用户分享了对 Qwen3.6 27B 模型的体验,该模型一次性成功生成了一个完整的 HTML5 打砖块游戏,展现了令人印象深刻的连贯性和对细节的关注,超越了典型的 LLM 输出。
我之前曾吐槽过这个模型,但现在它给我留下了深刻印象,我也理解了为什么它这么火。我一直在开发一个 HTML5 游戏主机,想看看 Qwen3.6 27B 能否快速为它制作一些游戏,以展示功能(比如游戏保存、用于统计追踪和心跳管理的控制台 API 处理、游戏元数据等)。我给了它 3 个文件,解释了 API 的工作原理、手柄控制方式,以及一个要应用的 TypeScript 着色器。然后我提供了一个非常简单的提示:“为这个主机做一个打砖块游戏,工作目录中有参考文件说明如何制作。”第一次生成的结果就立即可玩,控制合理,图形风格独特且合适,音效正常,控制台 API 全部工作,感觉良好且实际上很有趣。它增添了一些特色,让它看起来不像那些“氛围编码”出来的打砖块克隆版。它远远超出了我见过的许多 LLM 能做到的最低水平。它一点也不偷懒。这是一个简单的测试,但几乎所有模型(除了像 Opus 这样的)都难以完成。它并没有哪方面特别出色,只是整个游戏几乎一次性完成,而且感觉对整个游戏都经过了深思熟虑。我只需要一次后续调整来定制化,并修复一个小故障,它就已经达到我认为的完成度了。而且这是在 27B 模型和 Opencode 上运行的。最好的形容方式是:它很协调。现在我只希望当初选择了英伟达显卡而不是 Strix Halo,因为速度不太理想。也许 3.7 35B A3B 能拥有一些这种魔力。
相似文章
@KyleHessling1:兄弟们,我彻底震惊了。Qwen 3.6 27B 的提升幅度,就像直接从 Qwen 27B 3.5 跨到 Qwen 4。我刚跑完一整套前端设计测试和智能体基准,全部由它完成。结论:效果远超预期,我完全惊呆。
早期用户反馈:Qwen 3.6 27B 相比 3.5 性能暴涨,在前端设计与智能体基准上表现尤为亮眼。
@sudoingX:更新:Qwen 3.6 27b dense q4 在单张 3090 上一次生成了 Octopus Invaders 游戏。Hermes Agent 驱动了整个事…
用户基准测试表明,Qwen 3.6 27B dense 模型(Q4 量化)能够在单张 RTX 3090 上通过单次提示自主生成一个完全可玩的多文件游戏,性能显著优于其前代版本,且无需任何人工干预。测试结果突显了在消费级硬件上本地代码生成和智能体能力方面的重大改进。
本地Qwen 3.6与前沿模型在编码基础任务上的对比:单文件HTML Canvas驾驶动画——结果与GIF
用户将本地量化的Qwen 3.6模型与前沿模型在单文件HTML Canvas驾驶动画任务上进行比较,发现本地27B Qwen量化模型在视差和运动方面比某些前沿输出表现更好。
首次实现本地真实编程工作
开发者借助 Qwen3.6-35B 4-bit MLX 模型与 pi.dev 工具,在当前硬件上实现了高效的本地智能体编程,顺利完成了实际项目工单。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。