@stevibe: 三种销毁一张纸的方法。Qwen 3.5 35B A3B 对比 Ornith 1.0 35B,并排画布测试。(为什么是3.5而不是3.6?或者……)
摘要
一项并排画布测试,对比了Qwen 3.5 35B A3B和Ornith 1.0 35B在三种纸张销毁任务(切割、碎纸、揉团)上的表现,Ornith取得决定性胜利,展示了在Qwen 3.5和Gemma 4上进行后训练的价值。
查看缓存全文
缓存时间: 2026/06/28 01:58
摧毁一张纸的三种方式
Qwen 3.5 35B A3B 与 Ornith 1.0 35B 并排画布测试。
(为什么是 3.5 而不是 3.6?Ornith 是在 Qwen 3.5 和 Gemma 4 上进行后训练的,因此这展示了后训练带来的改进。)
相同的三个挑战: 切片:三次刀片划过,水果游戏风格 碎纸机:桌面条状切割 揉皱:揉成团扔掉
赢家:没有悬念。Ornith 明显胜出。后训练的质量是真实的。
相似文章
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
我的笔记本上的Qwen3.6-35B-A3B画出的鹈鹕比Claude Opus 4.7更好
Simon Willison对比了在MacBook Pro上本地运行的Qwen3.6-35B-A3B与Claude Opus 4.7,发现Qwen生成的骑自行车的鹈鹕和骑独轮车的火烈鸟的SVG插图更好,不过他指出这个狭窄的基准测试并不能反映更广泛的模型能力。
YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS,Qwen 3.6 表现亮眼
在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。
Qwen 3.6 35B A3B 的热度绝非虚名!
作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。