我的笔记本上的Qwen3.6-35B-A3B画出的鹈鹕比Claude Opus 4.7更好
摘要
Simon Willison对比了在MacBook Pro上本地运行的Qwen3.6-35B-A3B与Claude Opus 4.7,发现Qwen生成的骑自行车的鹈鹕和骑独轮车的火烈鸟的SVG插图更好,不过他指出这个狭窄的基准测试并不能反映更广泛的模型能力。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 08:27
# Qwen3.6-35B-A3B 在我的笔记本上画出的鹈鹕比 Claude Opus 4.7 更好
来源:https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
2026年4月16日
对于那些(不明智地)把我的 `pelican riding a bicycle` 基准测试(https://simonwillison.net/tags/pelican-riding-a-bicycle/)认真当作测试模型的稳健方法的人,以下是今早两大模型发布——阿里巴巴的 Qwen3.6-35B-A3B(https://qwen.ai/blog?id=qwen3.6-35b-a3b)和 Anthropic 的 Claude Opus 4.7(https://www.anthropic.com/news/claude-opus-4-7)——所画的鹈鹕。
这是 Qwen 3.6 的鹈鹕,使用 Unsloth 的量化模型 `Qwen3.6-35B-A3B-UD-Q4_K_S.gguf`(https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/blob/main/Qwen3.6-35B-A3B-UD-Q4_K_S.gguf)(20.9GB),通过 LM Studio(https://lmstudio.ai/)和 `llm-lmstudio`(https://github.com/agustif/llm-lmstudio)插件在我的 MacBook Pro M5 上运行——对话记录在此(https://gist.github.com/simonw/4389d355d8e162bc6e4547da214f7dd2):
自行车车架形状正确。天空中有云朵。鹈鹕的喉囊看起来蠢萌。地面上的文字写着“Pelican on a Bicycle!”
这是我从 Anthropic 全新的 Claude Opus 4.7(https://www.anthropic.com/news/claude-opus-4-7)得到的(对话记录(https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118)):
自行车车架形状完全不对。没有云,只有一个黄色的太阳。鹈鹕正在回头看自己的身后,喉囊也没有我期望的那么明显。
这一局我给 Qwen 3.6。Opus 居然把自行车车架画错了!
我又用 `thinking_level: max` 试了一次 Opus,结果也没好到哪里去(对话记录(https://gist.github.com/simonw/7566e04a81accfb9affda83451c0f363)):
自行车车架形状完全不对,而且错法不同了。线条更粗。鹈鹕看起来稍微更像鹈鹕了。
#### 我不认为 Qwen 在作弊
很多人确信这些实验室在针对我的愚蠢基准测试进行训练(https://simonwillison.net/2025/Nov/13/training-for-pelicans-riding-bicycles/)。我并不这么认为,但说实话,这个结果确实让我心里闪过一丝疑虑。所以我公开一个秘密备用测试——以下是我从 Qwen3.6-35B-A3B 和 Opus 4.7 那里得到的“生成一只火烈鸟骑独轮车的 SVG”:
这一局我也给 Qwen,部分原因是它出色的 SVG 注释 `<!-- Sunglasses on flamingo! -->`。
#### 我们能从中得到什么教训?
鹈鹕基准测试一直是玩笑——它主要是在说明比较这些模型是多么尴尬和荒谬的一项任务。
这个玩笑的怪异之处在于,大多数情况下,鹈鹕画的质量与模型的通用实用性之间存在直接关联。那些 2024 年 10 月的首批鹈鹕(https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/)简直一塌糊涂。而近期的作品(https://simonwillison.net/tags/pelican-riding-a-bicycle/)通常要好得多——以至于 Gemini 3.1 Pro 产生的插图(https://simonwillison.net/2026/Feb/19/gemini-31-pro/)你甚至能在某些场合真正使用,前提是你有急迫的需要画一只骑自行车的鹈鹕。
而如今,连这种松散的实用性关联也被打破了。我非常尊重 Qwen,但我非常怀疑一个 21GB 的量化版本会比 Anthropic 最新的专有发布更强大或更有用。
不过,如果你需要的就是一幅鹈鹕骑自行车的 SVG 插图,那么目前来看,在笔记本上运行的 Qwen3.6-35B-A3B 比 Opus 4.7 更靠谱!
相似文章
Reddit r/LocalLLaMA
社区讨论:将编码代理从 Claude Opus 4.7 切换至 Qwen-35B-A3B,寻求用户体验与性能对比。
Reddit r/LocalLLaMA
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
Reddit r/LocalLLaMA
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
Reddit r/LocalLLaMA
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。
Reddit r/LocalLLaMA
用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。