YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS,Qwen 3.6 表现亮眼

Reddit r/LocalLLaMA 模型

摘要

在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。

看到这段评测觉得挺有意思,分享一下。我之前用 Qwen 3 MoE 时最头疼的就是它指令遵循能力太差,而且上下文“掉智商”的点来得特别早。体验太差,我连 Qwen 3.5 都没试,一直用 SEED OSS 36B 写代码。3.6 的指令遵循似乎比前几代强不少,你们有同感吗?
查看原文
查看缓存全文

缓存时间: 2026/04/22 05:10

TL;DR:在一份 108 k token 的 JS 文件上进行的正面回忆测试中,Qwen 3.6 35B 记住了 285 个目标行中的 283 行,而 Gemma 4 27B 仅 16 次里成功 6 次,证明新版 Qwen 彻底解决了旧版本的“失忆”痛点。 ## 挑战:逆向工程 8000 行压缩后的 JavaScript 作者需要一款**本地 LLM**,能吞下 336 KB 的 `service.js`(美化后 108 k token),并提取 LTE 猫信号强度爬虫的登录+API 调用序列。 该文件有 8000+ 行重复样板代码,是折磨上下文窗口的绝佳素材。 ## 测试设计:16 次精准行回忆抽查 为避免 IDE 补全干扰,独立客户端一次性喂入全文,并给出单条提示: “从第 X 行开始的函数中,引用其左大括号后的 20 行。” 共 1300 个函数,随机抽 16 个。 若≥8 行与真值完全匹配,则计“通过”。 所有模型均使用 8-bit KV-cache(Q8),控制在 24 GB 显存内。 ## 第一轮 – Gemma 4 27B (A4B) ### Unsloth Q4K-XL - 6 / 16 通过 - 巨大 return 语句被截断 - 多条指令被静默丢弃 ### LM-Studio Q4KM - 2 / 16 通过 - 明显受 1 k token 滑动窗口限制 ## 第二轮 – Qwen 3.5 35B (DeltaNet) ### LM-Studio 社区构建 - 11 / 16 通过 - 回忆出 245 行正确,额外 98 行也准确,仅 50 行截断 - 大 return 块无失败 ### Unsloth Q4KM - 10 / 16 通过 - 略差,再次证明量化方式关键 ## 第三轮 – Qwen 3.6 35B (A3B) ### LM-Studio - 15 / 16 完美回忆,总漏行仅 9 行 ### llama.cpp 同量化 - 283 / 285 行完全匹配,仅 2 行幻觉 - 108 k token 下几乎零上下文衰减 ## 结论 Gemma 4 的 1 k 滑动窗口注意力让长文件逆向工程不可靠。 Qwen 3.6 35B 在相同显存预算下实现**近乎完美的位置回忆**,终于抹平了 Qwen 3 系列 MoE 模型曾让人望而却步的“失忆”缺陷。 来源:YouTube – mr_zerolith (https://www.youtube.com/watch?v=ONQcX9s6_co)

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Qwen 3.6 27B 太牛了

Reddit r/LocalLLaMA

一位用户分享了在本地使用 Qwen 3.6 27B 进行复杂研究和编程的积极体验,发现它在职业建议和移民研究方面优于 Gemini Pro,同时也提到 Gemma 4 31B 存在性能问题。