我将测试时计算扩展到 Qwen-3.6-27B 和 Gemma-4-31B,以在代码优化和加速方面超越 Claude Mythos。
摘要
本文描述了一个脚手架(scaffold),它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算,从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。
相似文章
我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
Qwen3.6:27b 一次尝试即修复了 CSS UI 错误,而 Gemma4:26B 却无用空转了 15 分钟
用户分享了一份详细的本地编码性能对比,指出 Qwen3.6-27B 仅用一次尝试就修复了 CSS 错误,而 Gemma4-26B 则陷入了递归错误循环。该帖子强调了在 Apple Silicon 硬件上密集模型(Dense models)与混合专家模型(MoE)之间的权衡。
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。
通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
一些测试不同Gemma和Qwen量化版本准确性的对比实验
一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果,强调了模型规模与量化级别之间的权衡。