YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS，Qwen 3.6 表现亮眼

Reddit r/LocalLLaMA 2026/04/22 03:52 模型

摘要

在 108 k token 的 JS 文件上，Qwen 3.6 35B 实现 283/285 行近乎完美的召回率，碾压 Gemma 4 27B（仅 6/16 通过），并修复了早期 Qwen 的长上下文短板。

看到这段评测觉得挺有意思，分享一下。我之前用 Qwen 3 MoE 时最头疼的就是它指令遵循能力太差，而且上下文“掉智商”的点来得特别早。体验太差，我连 Qwen 3.5 都没试，一直用 SEED OSS 36B 写代码。3.6 的指令遵循似乎比前几代强不少，你们有同感吗？

查看原文

查看缓存全文

缓存时间: 2026/04/22 05:10

TL;DR：在一份 108 k token 的 JS 文件上进行的正面回忆测试中，Qwen 3.6 35B 记住了 285 个目标行中的 283 行，而 Gemma 4 27B 仅 16 次里成功 6 次，证明新版 Qwen 彻底解决了旧版本的“失忆”痛点。 ## 挑战：逆向工程 8000 行压缩后的 JavaScript 作者需要一款**本地 LLM**，能吞下 336 KB 的 `service.js`（美化后 108 k token），并提取 LTE 猫信号强度爬虫的登录+API 调用序列。该文件有 8000+ 行重复样板代码，是折磨上下文窗口的绝佳素材。 ## 测试设计：16 次精准行回忆抽查为避免 IDE 补全干扰，独立客户端一次性喂入全文，并给出单条提示： “从第 X 行开始的函数中，引用其左大括号后的 20 行。” 共 1300 个函数，随机抽 16 个。若≥8 行与真值完全匹配，则计“通过”。所有模型均使用 8-bit KV-cache（Q8），控制在 24 GB 显存内。 ## 第一轮 – Gemma 4 27B (A4B) ### Unsloth Q4K-XL - 6 / 16 通过 - 巨大 return 语句被截断 - 多条指令被静默丢弃 ### LM-Studio Q4KM - 2 / 16 通过 - 明显受 1 k token 滑动窗口限制 ## 第二轮 – Qwen 3.5 35B (DeltaNet) ### LM-Studio 社区构建 - 11 / 16 通过 - 回忆出 245 行正确，额外 98 行也准确，仅 50 行截断 - 大 return 块无失败 ### Unsloth Q4KM - 10 / 16 通过 - 略差，再次证明量化方式关键 ## 第三轮 – Qwen 3.6 35B (A3B) ### LM-Studio - 15 / 16 完美回忆，总漏行仅 9 行 ### llama.cpp 同量化 - 283 / 285 行完全匹配，仅 2 行幻觉 - 108 k token 下几乎零上下文衰减 ## 结论 Gemma 4 的 1 k 滑动窗口注意力让长文件逆向工程不可靠。 Qwen 3.6 35B 在相同显存预算下实现**近乎完美的位置回忆**，终于抹平了 Qwen 3 系列 MoE 模型曾让人望而却步的“失忆”缺陷。来源：YouTube – mr_zerolith (https://www.youtube.com/watch?v=ONQcX9s6_co)

相似文章

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Qwen 3.6 27B 太牛了

Reddit r/LocalLLaMA

一位用户分享了在本地使用 Qwen 3.6 27B 进行复杂研究和编程的积极体验，发现它在职业建议和移民研究方面优于 Gemini Pro，同时也提到 Gemma 4 31B 存在性能问题。

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

Reddit r/LocalLLaMA

用户反馈，尽管基准测试表现亮眼，Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B，怀疑是量化或部署配置问题。

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

Reddit r/LocalLLaMA

一项非正式基准测试，通过 OpenCode/Playwright MCP 让 8 款 AI 模型（Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash）开发赛车游戏，以测试其代码生成智能体的能力，并记录了各种实现细节与特殊情况。

相似文章

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Qwen 3.6 27B 太牛了

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

提交意见反馈