动态分配计算预算给困难问题集，并通过Qwen-35B-A3B演化各模块，使性能在HLE上接近GPT-5.4-xHigh

Reddit r/LocalLLaMA 2026/05/15 20:51 论文

dynamic-compute-allocation qwen budget-allocation hard-problems hle ai-research compute-efficiency

摘要

一种使用Qwen-35B-A3B动态分配计算预算给困难问题的方法，在HLE基准测试上达到了接近GPT-5.4-xHigh的性能。

暂无内容

查看原文

相似文章

在一个困难的新SWE基准测试ProgramBench上，GPT5.5 high/xhigh首次解决了任务，显著优于Opus 4.7

Reddit r/singularity

GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解，显著优于Opus 4.7。

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Reddit r/LocalLLaMA

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

Reddit r/LocalLLaMA

用户报告称，在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf，200K 上下文速度约 50 tok/s，编码表现出乎意料地可用，标志着本地模型质量大幅跃升。

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户，首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志，而非合成基准测试。**本文所有数据的关键负载背景：** 测试框架是一个多智能体编排器，同时运行 1-6 个并发的 OpenCode 会话，Prompt 长度为 30-60k token，并且强制执行**严格的 Bash 允许列表

提交意见反馈