bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF
摘要
bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本,打包为 GGUF 格式,用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。
查看缓存全文
缓存时间: 2026/06/20 14:20
bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF · Hugging Face 来源:https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF 无思考 · PI 调校 · MTP · GGUF
🪐 Qwen3.6-27B-MTP-pi-tune
对 Qwen3.6-27B 进行 4 位 QLoRA SFT 多Token预测微调,通过 PI 风格框架专门针对无思考代理编码进行优化。打包为兼容 llama.cpp 的 GGUF 格式,适用于本地代理循环。
🧠 27B 稠密基础 · 🚫 无思考调校 · ⚡ MTP 推测解码 · 🛠️ 编码 · DevOps · 代理 · 📦 llama.cpp GGUF · 🖼️ 多模态兼容 · 🪟 原生 256k · 最大 1M 上下文
如需最强 Pi 风格编码代理行为,请使用推理训练版:
bytkim/Qwen3.6-27B-MTP-pi-reasoning-GGUF(https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-reasoning-GGUF)。更多评估上下文请参考技术文章(https://huggingface.co/blog/bytkim/qwen36-27b-reasoning)。当您特意需要低延迟的直接/指令路径时,此无思考调校版本依然有用。
⚡ MTP 解码
多Token预测可草拟未来Token,在主解码路径同意时接受它们——从而减少长推理、代码生成和工具调用设置中的实际耗时。
🧩 无思考设计
基于 Qwen3.6 的无思考推理路径进行训练。模型直接响应工具调用、编辑和结构化输出——无需...前言占用框架可操作前的实际时间。
🧪 本地优先吞吐量
专为在单台工作站上运行 llama.cpp 类运行时而设计,并在实际代理负载上测量 MTP 草稿接受率。
🚀 实用速度
为等待几分钟才能完成一次轮换会破坏循环的工作流而构建——该调校倾向于果断输出而非草稿扩展。
上下文窗口
128k 已测试 · 基础模型原生支持 256k · 通过 RoPE 缩放可扩展至 1M Token。
MTP 草稿接受率 ~78%
在代理负载上,主解码路径接受约 78% 的草拟未来Token。3 个推测步骤 · 4 个草稿Token。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%92%A1-1-model-overview
💡 1. 模型概览
| 属性 | 详情 |
|---|---|
| 基础模型 | Qwen/Qwen3.6-27B(https://huggingface.co/Qwen/Qwen3.6-27B) |
| 发布格式 | GGUF |
| 运行时目标 | 兼容 llama.cpp 的本地推理 |
| 调校重点 | 框架流畅性、编码代理任务、终端工作流、工具使用、仓库操作 |
| 微调风格 | 基于私有已通过代理轨迹的 4 位 QLoRA SFT |
| 技术文章 | Qwen3.6 27B 推理文章(https://huggingface.co/blog/bytkim/qwen36-27b-reasoning) |
| 推理数据策略 | 内部推理轨迹未导出至 SFT 行 |
| 推荐量化 | Q4_K_M 作为默认起点 |
Qwen3.6-27B 是一个带有视觉编码器的因果语言模型。支持图像和视频理解,只需将语言模型 GGUF 与兼容的 Qwen3.6
mmproj-F16.gguf侧车配对使用(参见 §4 多模态推理)。MTP 草稿头在所有量化版本中保持Q8_0精度,通过在量化时使用--tensor-type nextn=q8_0实现——推测解码可在任何量化级别工作,不仅限于Q8_0/bf16。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%A7%A9-2-why-this-tune
🧩 2. 为何选择此调校
Qwen3.6 支持思考推理模式(在响应前输出一个...块)和无思考模式(模型直接回答并行动)。此版本特别针对无思考路径进行微调——代理循环实际运行的模式。
在运行工具调用循环的 PI 风格框架中,每一个思考Token都是框架无法调度下一个操作的实际耗时。因此,此调校旨在将无思考路径的质量提升到关键之处:工具调用、仓库编辑、终端命令、验证器反馈和结构化输出。
这延续了 Qwen3.6 现有的代理编码姿态——前端工作流、仓库级推理和工具调用——但将质量拉入本地代理运行时能够预算的推理模式。
- 终端和Shell任务执行
- 仓库检查、补丁和测试迭代
- 工具调用形式的交互和结构化输出
- DevOps 剧本、环境搭建和调试循环
- 注重命令使用、文件编辑和验证器反馈的编码任务
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%A6-3-quantizations
📦 3. 量化
推荐起点:Q4_K_M。
| 量化 | 文件大小 | VRAM(约) | 建议用途 |
|---|---|---|---|
Q2_K | ~11 GB | ~13 GB | 最小内存占用;预期有质量折衷 |
Q3_K_S | ~12 GB | ~15 GB | 低内存 3 位选项 |
Q3_K_M | ~14 GB | ~16 GB | 平衡的 3 位选项 |
Q3_K_L | ~15 GB | ~17 GB | 更高质量的 3 位选项 |
Q4_K_S | ~16 GB | ~18 GB | 较小的 4 位选项 |
Q4_K_M | ~17 GB | ~19 GB | 大多数本地使用的默认推荐。24 GB GPU 可舒适运行 |
Q5_K_S | ~19 GB | ~21 GB | 更高质量的 5 位选项 |
Q5_K_M | ~20 GB | ~22 GB | 质量/内存平衡良好;接近 24 GB GPU 的上限 |
Q6_K | ~22 GB | ~25 GB | 如果有足够内存的高质量本地推理 |
Q8_0 | ~29 GB | ~32 GB | 最高精度量化选项 |
bf16 | ~55 GB | ~58 GB | BF16 GGUF 参考(如果存在) |
VRAM 数字为在中等上下文(~32k)下使用量化 KV 缓存进行 GPU 卸载推理(-ngl 99 -fa)的粗略估计;随上下文增长而增加。
此版本中的每个量化都附带以
Q8_0精度存储的 MTPnextn预测头,无论整体量化目标如何。这意味着推测解码可在任何量化级别工作——选择适合您 VRAM 的最小版本,您仍能获得 §6 中描述的 MTP 吞吐量特性。某些文件可能仍在上传中。请查看“文件”标签页以获取当前可用的确切工件。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%9A%80-4-quickstart
🚀 4. 快速开始
使用 llama.cpp 运行(标准启动——适用于任何构建):
# 显示 128k 上下文;基础模型原生支持 256k,并通过 RoPE 缩放可扩展至约 1M。
# 采样值匹配 Qwen3.6 推荐的无思考模式默认值——这是此调校所训练的推理路径,因此推荐使用这些值。
llama-server -hf bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M \
--jinja -ngl 99 -fa -c 131072 \
--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
--presence-penalty 1.5
使用上游 llama.cpp + MTP 推测解码运行(ggml-org/llama.cpp(https://github.com/ggml-org/llama.cpp),MTP 支持已合并于 PR #22673(https://github.com/ggml-org/llama.cpp/pull/22673)):
# 此版本中的 nextn 预测头通过上游的 draft-mtp 推测器激活。
# 使用 MTP 时 -np 必须为 1(并行插槽尚不支持 MTP)。
llama-server -hf bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M \
--spec-type draft-mtp \
--spec-draft-n-max 3 \
-np 1 \
--jinja -ngl 99 -fa -c 131072 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
--presence-penalty 1.5
使用 Ollama 运行:
ollama run hf.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M
下载单个 GGUF 文件:
hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF \
Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
--local-dir .
下载整个仓库:
hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF --local-dir .
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#multi-modal-inference-image–video
多模态推理(图像 + 视频)
此版本兼容 Qwen3.6 的 mmproj-F16.gguf 侧车,用于视觉语言推理。单个 mmproj 文件与此版本中的每个量化配对;投影器在架构上与基础模型的视觉塔绑定,而非 LM 量化级别,因此只需下载一次即可重复使用。
兼容的 mmproj 可从 unsloth/Qwen3.6-27B-MTP-GGUF(https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF)下载。
此版本中的微调为纯语言——视觉编码器权重未被修改。因此图像/视频理解能力与上游 Qwen3.6-27B 基础模型保持不变;此版本不声称对其有所改进,仅保持原样。
# 从此仓库拉取 LM 权重
hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF \
Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
--local-dir .
# 拉取兼容的 mmproj 侧车
hf download unsloth/Qwen3.6-27B-MTP-GGUF \
mmproj-F16.gguf \
--local-dir .
# 启动带视觉功能的 llama-server
llama-server -m ./Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
--mmproj ./mmproj-F16.gguf \
--jinja -ngl 99 -fa -c 131072 \
--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
--presence-penalty 1.5
如需快速进行文本+图像会话而无需启动服务器:
llama-mtmd-cli -m ./Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
--mmproj ./mmproj-F16.gguf
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#use-as-an-openai-compatible-api
用作 OpenAI 兼容 API
llama-server 暴露了一个 OpenAI 兼容的 /v1/chat/completions 端点,因此任何针对 OpenAI SDK 编写的客户端都可以直接指向它——无需修改客户端:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8080/v1",
api_key="not-needed",
)
resp = client.chat.completions.create(
model="Qwen3.6-27B-MTP-pi-tune",
messages=[
{"role": "system", "content": "You are a precise coding agent."},
{"role": "user", "content": "Write a Python function that merges overlapping intervals."},
],
)
print(resp.choices[0].message.content)
同一端点接受 tools=[...] 用于函数调用,并通过 stream=True 支持流式输出。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%A7%AC-5-training–data-notes
🧬 5. 训练与数据说明
基于真实代理轨迹进行微调,而非合成生成或蒸馏聊天——每个训练行都是一个通过 PI 风格框架实际端到端执行任务的助手留下的痕迹,导出为 Qwen 兼容的 ChatML 行,保留工具模式和运行时提示。
高级任务覆盖范围包括:
- 终端和Shell环境代理任务
- 工具/函数调用交互
- 多语言代码编辑和修复任务
- 仓库问题解决和测试驱动补丁
- 编码和API集成任务
- Shell、包管理、迁移、运维和验证器驱动任务
🧭 训练理念
使用4 位 QLoRA SFT 进行训练。训练行导出时移除了内部推理轨迹,助手轮次按照 Qwen3.6 的无思考风格格式化。此版本所提供的是无思考路径的质量——这就是调校训练的路径,也应在此路径上运行。
具体的数据集名称和训练行数在此初始卡片中刻意省略。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%E2%9A%A1-6-mtp-throughput
⚡ 6. MTP 吞吐量
MTP 代表多Token预测。模型草拟可能的未来Token,运行时在它们与主解码路径一致时接受它们。在本地代理工作中这很重要,因为长推理、代码生成、工具调用设置和面向Shell的轮次否则大部分实际时间都花费在等待生成上。
以下数字描述了此版本的当前本地性能概况。它们来自针对 PI 框架的内部运行的代表性数据——完整基准测试即将发布,并将用 §7 中的任务成功率表取代这些数字。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#raw-decode-profile
原始解码性能概况
| 指标 | 数值 |
|---|---|
| 提示/预填充 | ~615 tok/s |
| 解码/生成 | ~40 tok/s |
| 端到端请求 | ~71 tok/s |
| MTP 草稿接受率 | ~78% |
读取和处理提示/上下文Token。 llama.cpp 报告的原始生成Token速度。 完整 llama 请求在提示和解码间的吞吐量。 主解码路径接受的草拟未来Token比例。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#agentic-throughput
代理吞吐量
代理数字不同于原始Token/秒。它衡量代理运行中的实际任务吞吐量——包括模型生成、工具调用、Shell命令、包安装、文件 I/O 和面向验证器的工作。
| 指标 | 数值 |
|---|---|
| 有效输出 | ~33 tok/s |
| 有效总量 | ~1.6k tok/s |
输出Token除以完整的代理执行时间。 框架统计的输入+输出Token,端到端。
有效输出吞吐量计算方式为:sum(output tokens) / sum(agent execution duration) 这使其成为比纯解码速度更现实的代理工作流数字——它包括了通过框架操作的时间,而不仅是生成文本的时间。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%8A-7-coding-eval-benchmarks
📊 7. 编码评估基准
🛰️ 即将发布
任务成功率基准单独跟踪,将在本卡片的后续更新中发布。吞吐量回答的是本地 MTP 堆栈运行多快;编码评估回答的是代理实际解决任务的成功率——两者不应相互推断。后续版本将覆盖 §5 中列出的高级领域的任务成功率:终端/Shell代理任务、工具和函数调用、多语言代码编辑、仓库问题解决以及编码/API集成任务。
上述吞吐量数据来自本地启用 MTP 的运行。任务成功率应仅从已完成的评估运行中报告,而非从速度推断。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%8E%AF-8-recommended-use-cases
🎯 8. 推荐使用场景
- 本地编码代理实验
- 重度工具聊天和函数调用实验
- DevOps 故障排除和剧本起草
- 仓库导航、补丁规划和测试迭代
- 偏好本地推理的长上下文工程工作流
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%E2%9A%A0%EF%B8%8F-9-limitations
⚠️ 9. 局限性
- 这是一个社区版本,用于研究、评估和工作流探索
- 低比特量化可能会降低指令遵循和工具调用可靠性
- 编码评估成功率在此初始卡片中尚未最终确定
- 本卡片不声称安全性对齐超出从基础模型和微调数据继承的行为
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%9C-10-license
📜 10. 许可证
根据 Apache 2.0(https://huggingface.co/Qwen/Qwen3.6-27B/blob/main/LICENSE)许可证发布,继承自上游 Qwen3.6-27B 基础模型。您可以根据该许可证的条款自由使用、修改和重新分发模型及其衍生作品。
https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%99%8F-11-acknowledgements
🙏 11. 致谢
感谢 Qwen 团队提供 Qwen3.6 基础模型及其 MTP 设计,感谢 ggml-org / llama.cpp 维护者在上游提供原生多Token预测支持,以及更广泛的开源量化工具社区,其工作使得前沿模型在本地优先推理成为可能。
专为本地代理循环构建 · 速度在关键之处 · 上下文在需要之处 · 每个量化版本都带 MTP
128k 已测试 · 256k 原生 · 1M 最大 · ~78% MTP 草稿接受率 · ~1.6k tok/s 端到端代理吞吐量
相似文章
unsloth/Qwen3.6-27B-MTP-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。
havenoammo/Qwen3.6-27B-MTP-UD-GGUF
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
unsloth/Qwen3.6-35B-A3B-MTP-GGUF
本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。
Qwen3.6-27B-GGUF 重磅发布!
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。
Unsloth 上的 MTP
Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。