优化 Qwen 3.6 35B A3B 的采样参数
摘要
一位研究者希望找到更快、方差更低的基准测试,以便为 Qwen 3.6 35B A3B 调节 temperature、top_p、top_k 与 min_p,现有方案预估需数月的 3090 算力。
我在尝试优化 Qwen 3.6 35B A3B 的采样参数,但苦于找不到合适的基准测试。为什么我怀疑官方推荐的设置并非最优?首先,他们对 3.5 和 3.6 给出的是同一套参数;而我从 3.5 升级到 3.6 后,其他条件完全不变(连量化模型都一样),3.6 却在一些定时任务里陷入工具调用死循环,3.5 则不会,解决方法是把 temperature 调高。其次,官方给的数值都很“整”,像是惯例值,显然没经过系统调优。我还特别怀疑 min_p=0.0 真的最优:给它一个极小值,也许就能让其他采样器对“较不可能”的 token 更宽容,而不必像现在这么苛刻。
我试过 GSM8K、GSM8K 的 metabench 子集、IFEval 和 GPQA Diamond。GSM8K 与 IFEval 基本饱和;metabench 子集没饱和,但跑分波动 ≥20%;GPQA Diamond 波动小些,仍有 ≥2.5%,而我的 3090 跑一次要近 3 小时,想拿到干净信号每个配置得跑 10 次。
我的计划是:
1. 对 temperature、top_p、top_k、min_p 做 10 点的单变量搜索,中心点取官方推荐区间的均值(min_p 除外,他们给的是 0.0)。
2. 用第 1 步结果划定网格搜索范围,每个参数取 3 档(单变量最优值,以及在其下降 50% 的两侧边界)。
3. 在最佳网格点用 Optuna 再细调。
问题:仅这 4 个参数,第 1 阶段就要 40 点(若最优值偏离中心还得加跑),第 2 阶段 81 点,第 3 阶段更没谱。前两个阶段在我这张 3090 上就是实打实的 5 个月,而等到跑完,新版本的 Qwen 估计都发布了。
之前 3.5 有个帖子,但基本靠“感觉”讨论参数:https://old.reddit.com/r/LocalLLaMA/comments/1ryb028/qwen35_best_parameters_collection/
也许根本不存在“又快、方差又低”的基准,能分辨这些采样差异。毕竟测采样不能用 logprobs 类基准,只能跑生成式任务,而这类 benchmark 数量少、速度慢,采样本身还会引入方差,可能需要极大量题目才能平均掉噪声。
我把问题留在这儿,万一有人知道:
- 更合适的 benchmark,能让我这张 3090 在合理时间内跑完;
- 或者更好的评估方法;
- 再或者有算力土豪愿意把 Qwen 最后一滴性能榨干。
相似文章
注意 Qwen3.6 27B 新的推荐采样参数
Qwen 团队为其新的 27B 模型更新了推荐的 temperature、top_p 与 presence_penalty 数值,以同时优化思考模式与指令模式的表现。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
需要第二双眼睛,这个Qwen3.6 27B量化方案总是用更少的思考且正确
作者分享了一个Qwen3.6 27B的量化方案,该方案使模型使用显著更少的思考令牌,同时仍然产生正确的答案,从而在数学基准测试中实现更快的推理。
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。