动态分配计算预算给困难问题集,并通过Qwen-35B-A3B演化各模块,使性能在HLE上接近GPT-5.4-xHigh
摘要
一种使用Qwen-35B-A3B动态分配计算预算给困难问题的方法,在HLE基准测试上达到了接近GPT-5.4-xHigh的性能。
暂无内容
相似文章
我将测试时计算扩展到 Qwen-3.6-27B 和 Gemma-4-31B,以在代码优化和加速方面超越 Claude Mythos。
本文描述了一个脚手架(scaffold),它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算,从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。
在一个困难的新SWE基准测试ProgramBench上,GPT5.5 high/xhigh首次解决了任务,显著优于Opus 4.7
GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解,显著优于Opus 4.7。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
在搭载RTX 4060(8GB)的笔记本电脑上运行Qwen3.6-35B-A3B——哪些有效、哪些无效以及一个令人意外的推测解码结果
详细记录了在8GB笔记本GPU上运行Qwen3.6-35B-A3B MoE模型的经历,涵盖有效优化(如--no-mmap和VRAM余量)、意料之外的发现(推测解码相比基准测试提升26%的速度)以及Windows和CPU瓶颈的陷阱。