本地Qwen 3.6与前沿模型在编码基础任务上的对比:单文件HTML Canvas驾驶动画——结果与GIF

Reddit r/LocalLLaMA 新闻

摘要

用户将本地量化的Qwen 3.6模型与前沿模型在单文件HTML Canvas驾驶动画任务上进行比较,发现本地27B Qwen量化模型在视差和运动方面比某些前沿输出表现更好。

看到[这个帖子](https://www.reddit.com/r/LocalLLaMA/comments/1styxdy/compared_qwen_36_35b_with_qwen_36_27b_for_coding/)比较了Qwen 3.6变体在编码基本任务上的表现,所以我想看看本地量化模型在类似密集单文件编码任务上如何与前沿模型抗衡。我通过我的Perplexity订阅,在本地和基于网页的模型上运行了完全相同的提示词。提示词是:“编写一个包含全屏画布且无任何库的单一HTML文件。模拟一辆行驶汽车的现实侧视图作为主要对象。保持汽车在前景可见,同时背景景观持续滚动,营造汽车向前行驶的感觉。使用分层景深:近处地面、路边元素、树木、电线杆和远处的丘陵或山脉应以不同速度移动,产生自然的视差效果。让车轮真实地旋转,并添加微妙的车身运动,使汽车感觉与路面相连。让环境平滑地从后面经过,使用重复但变化的景观,使运动看起来可信。使用电影级光照和统一的天空,如日落、黄昏或日光,以增强氛围。整体运动应感觉平静、沉浸且逼真,形成无缝循环动画。” **测试的模型** 前沿(基于网页,通过Perplexity,未测量tok/s): * Claude sonnet 4.6 Thinking——使用互联网进行推理 * Gemini 3.1 Pro Thinking * GPT 5.4 Thinking * Kimi k2.6 Thinking 本地(Ryzen 5 5600, 24 GB DDR4-3200, RX 5700 XT 8GB): * Qwen3.5 9B Q4_K_M — ~50 tok/s * Qwen3.6-27B (Claude-opus-reasoning-distilled) Q4_K_M — 2.65 tok/s * Qwen3.6-27B Q4_K_M — 2.70 tok/s * Qwen3.6-31B A3B Q4_K_M — 12.13 tok/s * Gemma-4-31b-it — 1.91 tok/s * Qwen3.5 4B Q8 — 60 tok/s — 使用互联网进行推理 * Qwen3.5 4B Q4_K_M — 80 tok/s — 使用互联网进行推理 **我关注的重点** 现实的侧视驾驶动画:分层视差场景、旋转的车轮、微妙的底盘运动、统一的天空和光照,以及无缝循环——全部使用原生JS/Canvas,零库。 **针对此特定任务的主观排名** 1. Kimi k2.6 Thinking —— 整体视觉效果最清晰 2. Qwen3.6-27B Q4_K_M(本地)—— 比我预期的更强;视差和道路感良好 3. Qwen3.6-27B Claude-opus-reasoning-distilled —— 接近第三 对于这个特定的视觉基本任务,本地27B量化模型比某些前沿输出提供了更自然的运动和分层。我原本期望前沿模型表现好得多——是我遗漏了什么吗? **输出** 我只更改了HTML `<title>` 标签来追踪哪个模型生成了哪个文件。我将分享所有输出文件,可能还有一些运行动画的截图,这样你可以自己判断视觉质量。如果有人想在自己的设备上运行完全相同的提示词——尤其是其他MoE裁剪或蒸馏版本——欢迎分享你的结果。
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd