我的笔记本上的Qwen3.6-35B-A3B画出的鹈鹕比Claude Opus 4.7更好

Simon Willison's Blog 2026/04/16 17:16 新闻

摘要

Simon Willison对比了在MacBook Pro上本地运行的Qwen3.6-35B-A3B与Claude Opus 4.7，发现Qwen生成的骑自行车的鹈鹕和骑独轮车的火烈鸟的SVG插图更好，不过他指出这个狭窄的基准测试并不能反映更广泛的模型能力。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:27

# Qwen3.6-35B-A3B 在我的笔记本上画出的鹈鹕比 Claude Opus 4.7 更好来源：https://simonwillison.net/2026/Apr/16/qwen-beats-opus/ 2026年4月16日对于那些（不明智地）把我的 `pelican riding a bicycle` 基准测试（https://simonwillison.net/tags/pelican-riding-a-bicycle/）认真当作测试模型的稳健方法的人，以下是今早两大模型发布——阿里巴巴的 Qwen3.6-35B-A3B（https://qwen.ai/blog?id=qwen3.6-35b-a3b）和 Anthropic 的 Claude Opus 4.7（https://www.anthropic.com/news/claude-opus-4-7）——所画的鹈鹕。这是 Qwen 3.6 的鹈鹕，使用 Unsloth 的量化模型 `Qwen3.6-35B-A3B-UD-Q4_K_S.gguf`（https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/blob/main/Qwen3.6-35B-A3B-UD-Q4_K_S.gguf）（20.9GB），通过 LM Studio（https://lmstudio.ai/）和 `llm-lmstudio`（https://github.com/agustif/llm-lmstudio）插件在我的 MacBook Pro M5 上运行——对话记录在此（https://gist.github.com/simonw/4389d355d8e162bc6e4547da214f7dd2）：自行车车架形状正确。天空中有云朵。鹈鹕的喉囊看起来蠢萌。地面上的文字写着“Pelican on a Bicycle!” 这是我从 Anthropic 全新的 Claude Opus 4.7（https://www.anthropic.com/news/claude-opus-4-7）得到的（对话记录（https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118））：自行车车架形状完全不对。没有云，只有一个黄色的太阳。鹈鹕正在回头看自己的身后，喉囊也没有我期望的那么明显。这一局我给 Qwen 3.6。Opus 居然把自行车车架画错了！我又用 `thinking_level: max` 试了一次 Opus，结果也没好到哪里去（对话记录（https://gist.github.com/simonw/7566e04a81accfb9affda83451c0f363））：自行车车架形状完全不对，而且错法不同了。线条更粗。鹈鹕看起来稍微更像鹈鹕了。 #### 我不认为 Qwen 在作弊很多人确信这些实验室在针对我的愚蠢基准测试进行训练（https://simonwillison.net/2025/Nov/13/training-for-pelicans-riding-bicycles/）。我并不这么认为，但说实话，这个结果确实让我心里闪过一丝疑虑。所以我公开一个秘密备用测试——以下是我从 Qwen3.6-35B-A3B 和 Opus 4.7 那里得到的“生成一只火烈鸟骑独轮车的 SVG”：这一局我也给 Qwen，部分原因是它出色的 SVG 注释 ``。 #### 我们能从中得到什么教训？鹈鹕基准测试一直是玩笑——它主要是在说明比较这些模型是多么尴尬和荒谬的一项任务。这个玩笑的怪异之处在于，大多数情况下，鹈鹕画的质量与模型的通用实用性之间存在直接关联。那些 2024 年 10 月的首批鹈鹕（https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/）简直一塌糊涂。而近期的作品（https://simonwillison.net/tags/pelican-riding-a-bicycle/）通常要好得多——以至于 Gemini 3.1 Pro 产生的插图（https://simonwillison.net/2026/Feb/19/gemini-31-pro/）你甚至能在某些场合真正使用，前提是你有急迫的需要画一只骑自行车的鹈鹕。而如今，连这种松散的实用性关联也被打破了。我非常尊重 Qwen，但我非常怀疑一个 21GB 的量化版本会比 Anthropic 最新的专有发布更强大或更有用。不过，如果你需要的就是一幅鹈鹕骑自行车的 SVG 插图，那么目前来看，在笔记本上运行的 Qwen3.6-35B-A3B 比 Opus 4.7 更靠谱！

相似文章

从 Opus 4.7 切换到 Qwen-35B-A3B

Reddit r/LocalLLaMA

社区讨论：将编码代理从 Claude Opus 4.7 切换至 Qwen-35B-A3B，寻求用户体验与性能对比。

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

Reddit r/LocalLLaMA

用户反馈，尽管基准测试表现亮眼，Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B，怀疑是量化或部署配置问题。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Qwen 3.6 35B A3B 的热度绝非虚名！

Reddit r/LocalLLaMA

作者对小型本地 LLM 进行了基准测试，重点突出了 Qwen 3.6 35B A3B，其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。

Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit

Reddit r/LocalLLaMA

用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本，称赞其速度快、智能化程度高且没有安全免责声明。

相似文章

从 Opus 4.7 切换到 Qwen-35B-A3B

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Qwen 3.6 35B A3B 的热度绝非虚名！

Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit

提交意见反馈