本地Qwen 3.6与前沿模型在编码基础任务上的对比：单文件HTML Canvas驾驶动画——结果与GIF

Reddit r/LocalLLaMA 2026/05/16 19:51 新闻

local-models frontier-models coding canvas-animation qwen comparison parallax

摘要

用户将本地量化的Qwen 3.6模型与前沿模型在单文件HTML Canvas驾驶动画任务上进行比较，发现本地27B Qwen量化模型在视差和运动方面比某些前沿输出表现更好。

看到[这个帖子](https://www.reddit.com/r/LocalLLaMA/comments/1styxdy/compared_qwen_36_35b_with_qwen_36_27b_for_coding/)比较了Qwen 3.6变体在编码基本任务上的表现，所以我想看看本地量化模型在类似密集单文件编码任务上如何与前沿模型抗衡。我通过我的Perplexity订阅，在本地和基于网页的模型上运行了完全相同的提示词。提示词是：“编写一个包含全屏画布且无任何库的单一HTML文件。模拟一辆行驶汽车的现实侧视图作为主要对象。保持汽车在前景可见，同时背景景观持续滚动，营造汽车向前行驶的感觉。使用分层景深：近处地面、路边元素、树木、电线杆和远处的丘陵或山脉应以不同速度移动，产生自然的视差效果。让车轮真实地旋转，并添加微妙的车身运动，使汽车感觉与路面相连。让环境平滑地从后面经过，使用重复但变化的景观，使运动看起来可信。使用电影级光照和统一的天空，如日落、黄昏或日光，以增强氛围。整体运动应感觉平静、沉浸且逼真，形成无缝循环动画。” **测试的模型** 前沿（基于网页，通过Perplexity，未测量tok/s）： * Claude sonnet 4.6 Thinking——使用互联网进行推理 * Gemini 3.1 Pro Thinking * GPT 5.4 Thinking * Kimi k2.6 Thinking 本地（Ryzen 5 5600, 24 GB DDR4-3200, RX 5700 XT 8GB）： * Qwen3.5 9B Q4_K_M — ~50 tok/s * Qwen3.6-27B (Claude-opus-reasoning-distilled) Q4_K_M — 2.65 tok/s * Qwen3.6-27B Q4_K_M — 2.70 tok/s * Qwen3.6-31B A3B Q4_K_M — 12.13 tok/s * Gemma-4-31b-it — 1.91 tok/s * Qwen3.5 4B Q8 — 60 tok/s — 使用互联网进行推理 * Qwen3.5 4B Q4_K_M — 80 tok/s — 使用互联网进行推理 **我关注的重点** 现实的侧视驾驶动画：分层视差场景、旋转的车轮、微妙的底盘运动、统一的天空和光照，以及无缝循环——全部使用原生JS/Canvas，零库。 **针对此特定任务的主观排名** 1. Kimi k2.6 Thinking —— 整体视觉效果最清晰 2. Qwen3.6-27B Q4_K_M（本地）—— 比我预期的更强；视差和道路感良好 3. Qwen3.6-27B Claude-opus-reasoning-distilled —— 接近第三对于这个特定的视觉基本任务，本地27B量化模型比某些前沿输出提供了更自然的运动和分层。我原本期望前沿模型表现好得多——是我遗漏了什么吗？ **输出** 我只更改了HTML `<title>` 标签来追踪哪个模型生成了哪个文件。我将分享所有输出文件，可能还有一些运行动画的截图，这样你可以自己判断视觉质量。如果有人想在自己的设备上运行完全相同的提示词——尤其是其他MoE裁剪或蒸馏版本——欢迎分享你的结果。

查看原文

相似文章

@sudoingX：更新：Qwen 3.6 27b dense q4 在单张 3090 上一次生成了 Octopus Invaders 游戏。Hermes Agent 驱动了整个事…

X AI KOLs Timeline

用户基准测试表明，Qwen 3.6 27B dense 模型（Q4 量化）能够在单张 RTX 3090 上通过单次提示自主生成一个完全可玩的多文件游戏，性能显著优于其前代版本，且无需任何人工干预。测试结果突显了在消费级硬件上本地代码生成和智能体能力方面的重大改进。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

Reddit r/LocalLLaMA

一项非正式基准测试，通过 OpenCode/Playwright MCP 让 8 款 AI 模型（Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash）开发赛车游戏，以测试其代码生成智能体的能力，并记录了各种实现细节与特殊情况。

@davis7：@0xSero 帮我把本地模型配置好了，我没想到它们现在竟然这么强大了。这算是前沿（frontier）级别了吗……

X AI KOLs Following

作者强调了在 RTX 5090 上本地运行开源 Qwen 3.6-27B 模型的卓越能力，指出其在编程任务上的强劲表现，并与商业模型进行了对比，尽管本地部署过程颇具挑战性。

@KyleHessling1：兄弟们，我彻底震惊了。Qwen 3.6 27B 的提升幅度，就像直接从 Qwen 27B 3.5 跨到 Qwen 4。我刚跑完一整套前端设计测试和智能体基准，全部由它完成。结论：效果远超预期，我完全惊呆。