@witcheer：这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优（！！！）。 - 质量（MMLU/ARC/HellaS…）

X AI KOLs Timeline 2026/06/17 14:47 模型

qwen fine-tuning coding bug-fixing benchmarks open-source agentic

摘要

一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力，同时保持了质量，这与导致退化的合成蒸馏不同。

这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优（！！！）。 - 质量（MMLU/ARC/HellaSwag/GSM8K/HumanEval）：93.3对比基准94.0。持平。 - 智能体分数（原生工具调用，40个任务）：98.0对比基准98.6。持平。 - 实际Bug（SWE-bench Verified，30个，官方测试框架）：20/30对比基准19/30。提升。它能解决基准无法解决的2个，且放弃更少（6个空补丁对比8个）。 - MTP起草器：2.0到2.4倍，对比基准1.8到2.2倍。微调保留了其起草器。这是我测评的第三个Qwen3.6-27B编码调优。另外两个是在合成智能体轨迹上蒸馏的，两者在实际Bug上都退化了。 ~~~ 在所有三个中，合成智能体分数处于2.4分的区间（97.6到100），而实际SWE范围是11到20。低级评估轴无法区分它们。 pi-tune甚至是组中质量最低但实际解决能力最好的。真实能力追踪的是训练数据，而不是智能体编码器标签：真实轨迹提升了它，合成蒸馏削弱了它。只有现实锚点才能看到差异。

查看原文

查看缓存全文

缓存时间: 2026/06/17 16:00

这是我测量的第一个能提升实际Bug修复能力的Qwen3.6-27B编码微调版本（！！！）。

质量（MMLU/ARC/HellaSwag/GSM8K/HumanEval）：93.3 vs 基准94.0。持平。
智能体评分（原生工具调用，40个任务）：98.0 vs 基准98.6。持平。
实际Bug（SWE-bench Verified，30个，官方测试框架）：20/30 vs 基准19/30。提升。它能解决2个基准无法处理的Bug，且放弃更少（6个空补丁 vs 8个）。
MTP起草器：2.0至2.4倍 vs 基准1.8至2.2倍。微调保留了起草器。

这是我测评的第三个Qwen3.6-27B编码微调版本。前两个是在合成智能体轨迹上蒸馏的，并且都在实际Bug上退步。

所有三个版本的合成智能体评分都在2.4个百分点的区间内（97.6到100），而实际SWE范围却是11到20。
便宜的评估轴无法区分它们。

pi-tune甚至是该组中质量最低的，但实际解决能力却是最好的。真实能力反映了训练数据，而非智能体编码标签：真实轨迹提升了它，合成蒸馏却局限了它。

只有现实锚点才能看出差异。

> **通义实验室（@Ali_TongyiLab）：**
> 我们很高兴推出一款优秀的社区模型，来自开发者：Qwen3.6-27B-MTP-pi-reasoning-GGUF。
>
> 该版本基于我们的Qwen3.6-27B基础模型，专注于优化本地编码智能体的自动编程和调试工作流程。
>
> 如果您正在探索本地

@witcheer：这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优（！！！）。 - 质量（MMLU/ARC/HellaS…）

相似文章

我无法让Qwen3.6 27B超越Qwen-Coder-Next，不确定原因

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF

@populartourist: 在仓库上持续使用 Qwen3.6 27B NVFP4 后，很明显这个量化版本并不可靠，至少在编…

@songjunkr：SuperQwen3.6-35B-DFlash-MLX 完成。基准：在 100 条商业评测的真实样本上对比原版与微调版——GPQA Diamond、MMLU-Pro、IFEval、HumanEval+、MBPP+

关于用于本地编码的 Qwen-3.6 14B 和 9B 蒸馏模型有任何消息（或希望）吗？

提交意见反馈