@witcheer:这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优(!!!)。 - 质量(MMLU/ARC/HellaS…)

X AI KOLs Timeline 模型

摘要

一个Qwen3.6-27B的社区微调在SWE-bench上提升了实际Bug修复能力,同时保持了质量,这与导致退化的合成蒸馏不同。

这是我测量到的第一个能提升实际Bug修复的Qwen3.6-27B编码调优(!!!)。 - 质量(MMLU/ARC/HellaSwag/GSM8K/HumanEval):93.3对比基准94.0。持平。 - 智能体分数(原生工具调用,40个任务):98.0对比基准98.6。持平。 - 实际Bug(SWE-bench Verified,30个,官方测试框架):20/30对比基准19/30。提升。它能解决基准无法解决的2个,且放弃更少(6个空补丁对比8个)。 - MTP起草器:2.0到2.4倍,对比基准1.8到2.2倍。微调保留了其起草器。 这是我测评的第三个Qwen3.6-27B编码调优。另外两个是在合成智能体轨迹上蒸馏的,两者在实际Bug上都退化了。 ~~~ 在所有三个中,合成智能体分数处于2.4分的区间(97.6到100),而实际SWE范围是11到20。 低级评估轴无法区分它们。 pi-tune甚至是组中质量最低但实际解决能力最好的。真实能力追踪的是训练数据,而不是智能体编码器标签:真实轨迹提升了它,合成蒸馏削弱了它。 只有现实锚点才能看到差异。
查看原文
查看缓存全文

缓存时间: 2026/06/17 16:00

这是我测量的第一个能提升实际Bug修复能力的Qwen3.6-27B编码微调版本(!!!)。

  • 质量(MMLU/ARC/HellaSwag/GSM8K/HumanEval):93.3 vs 基准94.0。持平。
  • 智能体评分(原生工具调用,40个任务):98.0 vs 基准98.6。持平。
  • 实际Bug(SWE-bench Verified,30个,官方测试框架):20/30 vs 基准19/30。提升。它能解决2个基准无法处理的Bug,且放弃更少(6个空补丁 vs 8个)。
  • MTP起草器:2.0至2.4倍 vs 基准1.8至2.2倍。微调保留了起草器。

这是我测评的第三个Qwen3.6-27B编码微调版本。前两个是在合成智能体轨迹上蒸馏的,并且都在实际Bug上退步。

所有三个版本的合成智能体评分都在2.4个百分点的区间内(97.6到100),而实际SWE范围却是11到20。
便宜的评估轴无法区分它们。

pi-tune甚至是该组中质量最低的,但实际解决能力却是最好的。真实能力反映了训练数据,而非智能体编码标签:真实轨迹提升了它,合成蒸馏却局限了它。

只有现实锚点才能看出差异。

> **通义实验室(@Ali_TongyiLab):**
> 我们很高兴推出一款优秀的社区模型,来自开发者:Qwen3.6-27B-MTP-pi-reasoning-GGUF。
>
> 该版本基于我们的Qwen3.6-27B基础模型,专注于优化本地编码智能体的自动编程和调试工作流程。
>
> 如果您正在探索本地

相似文章

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF

Hugging Face Models Trending

bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本,打包为 GGUF 格式,用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。