优化 Qwen 3.6 35B A3B 的采样参数

Reddit r/LocalLLaMA 2026/04/21 20:21 论文

摘要

一位研究者希望找到更快、方差更低的基准测试，以便为 Qwen 3.6 35B A3B 调节 temperature、top_p、top_k 与 min_p，现有方案预估需数月的 3090 算力。

我在尝试优化 Qwen 3.6 35B A3B 的采样参数，但苦于找不到合适的基准测试。为什么我怀疑官方推荐的设置并非最优？首先，他们对 3.5 和 3.6 给出的是同一套参数；而我从 3.5 升级到 3.6 后，其他条件完全不变（连量化模型都一样），3.6 却在一些定时任务里陷入工具调用死循环，3.5 则不会，解决方法是把 temperature 调高。其次，官方给的数值都很“整”，像是惯例值，显然没经过系统调优。我还特别怀疑 min_p=0.0 真的最优：给它一个极小值，也许就能让其他采样器对“较不可能”的 token 更宽容，而不必像现在这么苛刻。我试过 GSM8K、GSM8K 的 metabench 子集、IFEval 和 GPQA Diamond。GSM8K 与 IFEval 基本饱和；metabench 子集没饱和，但跑分波动 ≥20%；GPQA Diamond 波动小些，仍有 ≥2.5%，而我的 3090 跑一次要近 3 小时，想拿到干净信号每个配置得跑 10 次。我的计划是： 1. 对 temperature、top_p、top_k、min_p 做 10 点的单变量搜索，中心点取官方推荐区间的均值（min_p 除外，他们给的是 0.0）。 2. 用第 1 步结果划定网格搜索范围，每个参数取 3 档（单变量最优值，以及在其下降 50% 的两侧边界）。 3. 在最佳网格点用 Optuna 再细调。问题：仅这 4 个参数，第 1 阶段就要 40 点（若最优值偏离中心还得加跑），第 2 阶段 81 点，第 3 阶段更没谱。前两个阶段在我这张 3090 上就是实打实的 5 个月，而等到跑完，新版本的 Qwen 估计都发布了。之前 3.5 有个帖子，但基本靠“感觉”讨论参数：https://old.reddit.com/r/LocalLLaMA/comments/1ryb028/qwen35_best_parameters_collection/ 也许根本不存在“又快、方差又低”的基准，能分辨这些采样差异。毕竟测采样不能用 logprobs 类基准，只能跑生成式任务，而这类 benchmark 数量少、速度慢，采样本身还会引入方差，可能需要极大量题目才能平均掉噪声。我把问题留在这儿，万一有人知道： - 更合适的 benchmark，能让我这张 3090 在合理时间内跑完； - 或者更好的评估方法； - 再或者有算力土豪愿意把 Qwen 最后一滴性能榨干。

查看原文

优化 Qwen 3.6 35B A3B 的采样参数

相似文章

注意 Qwen3.6 27B 新的推荐采样参数

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

需要第二双眼睛，这个Qwen3.6 27B量化方案总是用更少的思考且正确

Qwen/Qwen3.6-35B-A3B-FP8

提交意见反馈