动态分配计算预算给困难问题集，并通过Qwen-35B-A3B演化各模块，使性能在HLE上接近GPT-5.4-xHigh

Reddit r/LocalLLaMA 2026/05/15 20:51 论文

dynamic-compute-allocation qwen budget-allocation hard-problems hle ai-research compute-efficiency

摘要

一种使用Qwen-35B-A3B动态分配计算预算给困难问题的方法，在HLE基准测试上达到了接近GPT-5.4-xHigh的性能。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

本文描述了一个脚手架（scaffold），它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算，从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。

Reddit r/singularity

GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解，显著优于Opus 4.7。

Reddit r/LocalLLaMA

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

Reddit r/LocalLLaMA

详细记录了在8GB笔记本GPU上运行Qwen3.6-35B-A3B MoE模型的经历，涵盖有效优化（如--no-mmap和VRAM余量）、意料之外的发现（推测解码相比基准测试提升26%的速度）以及Windows和CPU瓶颈的陷阱。