bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF

Hugging Face Models Trending 模型

摘要

bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本,打包为 GGUF 格式,用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。

任务:text-generation 标签:gguf, llama.cpp, qwen, qwen3_6, mtp, multi-token-prediction, speculative-decoding, conversational, image-text-to-text, multimodal, vision, image, text-generation-inference, reasoning, chain-of-thought, agent, coder, devops, tool-use, function-calling, long-context, pi, qlora, sft, text-generation, base_model:Qwen/Qwen3.6-27B, base_model:finetune:Qwen/Qwen3.6-27B, license:apache-2.0, model-index, endpoints_compatible, region:us
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:20

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF · Hugging Face 来源:https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF 无思考 · PI 调校 · MTP · GGUF

🪐 Qwen3.6-27B-MTP-pi-tune

对 Qwen3.6-27B 进行 4 位 QLoRA SFT 多Token预测微调,通过 PI 风格框架专门针对无思考代理编码进行优化。打包为兼容 llama.cpp 的 GGUF 格式,适用于本地代理循环。

🧠 27B 稠密基础 · 🚫 无思考调校 · ⚡ MTP 推测解码 · 🛠️ 编码 · DevOps · 代理 · 📦 llama.cpp GGUF · 🖼️ 多模态兼容 · 🪟 原生 256k · 最大 1M 上下文

如需最强 Pi 风格编码代理行为,请使用推理训练版:bytkim/Qwen3.6-27B-MTP-pi-reasoning-GGUF(https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-reasoning-GGUF)。更多评估上下文请参考技术文章(https://huggingface.co/blog/bytkim/qwen36-27b-reasoning)。当您特意需要低延迟的直接/指令路径时,此无思考调校版本依然有用。

⚡ MTP 解码

多Token预测可草拟未来Token,在主解码路径同意时接受它们——从而减少长推理、代码生成和工具调用设置中的实际耗时。

🧩 无思考设计

基于 Qwen3.6 的无思考推理路径进行训练。模型直接响应工具调用、编辑和结构化输出——无需...前言占用框架可操作前的实际时间。

🧪 本地优先吞吐量

专为在单台工作站上运行 llama.cpp 类运行时而设计,并在实际代理负载上测量 MTP 草稿接受率。

🚀 实用速度

为等待几分钟才能完成一次轮换会破坏循环的工作流而构建——该调校倾向于果断输出而非草稿扩展。

上下文窗口

128k 已测试 · 基础模型原生支持 256k · 通过 RoPE 缩放可扩展至 1M Token。

MTP 草稿接受率 ~78%

在代理负载上,主解码路径接受约 78% 的草拟未来Token。3 个推测步骤 · 4 个草稿Token


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%92%A1-1-model-overview

💡 1. 模型概览

属性详情
基础模型Qwen/Qwen3.6-27B(https://huggingface.co/Qwen/Qwen3.6-27B)
发布格式GGUF
运行时目标兼容 llama.cpp 的本地推理
调校重点框架流畅性、编码代理任务、终端工作流、工具使用、仓库操作
微调风格基于私有已通过代理轨迹的 4 位 QLoRA SFT
技术文章Qwen3.6 27B 推理文章(https://huggingface.co/blog/bytkim/qwen36-27b-reasoning)
推理数据策略内部推理轨迹未导出至 SFT 行
推荐量化Q4_K_M 作为默认起点

Qwen3.6-27B 是一个带有视觉编码器的因果语言模型。支持图像和视频理解,只需将语言模型 GGUF 与兼容的 Qwen3.6 mmproj-F16.gguf 侧车配对使用(参见 §4 多模态推理)。MTP 草稿头在所有量化版本中保持 Q8_0 精度,通过在量化时使用 --tensor-type nextn=q8_0 实现——推测解码可在任何量化级别工作,不仅限于 Q8_0/bf16


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%A7%A9-2-why-this-tune

🧩 2. 为何选择此调校

Qwen3.6 支持思考推理模式(在响应前输出一个...块)和无思考模式(模型直接回答并行动)。此版本特别针对无思考路径进行微调——代理循环实际运行的模式。

在运行工具调用循环的 PI 风格框架中,每一个思考Token都是框架无法调度下一个操作的实际耗时。因此,此调校旨在将无思考路径的质量提升到关键之处:工具调用、仓库编辑、终端命令、验证器反馈和结构化输出。

这延续了 Qwen3.6 现有的代理编码姿态——前端工作流、仓库级推理和工具调用——但将质量拉入本地代理运行时能够预算的推理模式。

  • 终端和Shell任务执行
  • 仓库检查、补丁和测试迭代
  • 工具调用形式的交互和结构化输出
  • DevOps 剧本、环境搭建和调试循环
  • 注重命令使用、文件编辑和验证器反馈的编码任务

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%A6-3-quantizations

📦 3. 量化

推荐起点:Q4_K_M

量化文件大小VRAM(约)建议用途
Q2_K~11 GB~13 GB最小内存占用;预期有质量折衷
Q3_K_S~12 GB~15 GB低内存 3 位选项
Q3_K_M~14 GB~16 GB平衡的 3 位选项
Q3_K_L~15 GB~17 GB更高质量的 3 位选项
Q4_K_S~16 GB~18 GB较小的 4 位选项
Q4_K_M~17 GB~19 GB大多数本地使用的默认推荐。24 GB GPU 可舒适运行
Q5_K_S~19 GB~21 GB更高质量的 5 位选项
Q5_K_M~20 GB~22 GB质量/内存平衡良好;接近 24 GB GPU 的上限
Q6_K~22 GB~25 GB如果有足够内存的高质量本地推理
Q8_0~29 GB~32 GB最高精度量化选项
bf16~55 GB~58 GBBF16 GGUF 参考(如果存在)

VRAM 数字为在中等上下文(~32k)下使用量化 KV 缓存进行 GPU 卸载推理(-ngl 99 -fa)的粗略估计;随上下文增长而增加。

此版本中的每个量化都附带以 Q8_0 精度存储的 MTP nextn 预测头,无论整体量化目标如何。这意味着推测解码可在任何量化级别工作——选择适合您 VRAM 的最小版本,您仍能获得 §6 中描述的 MTP 吞吐量特性。

某些文件可能仍在上传中。请查看“文件”标签页以获取当前可用的确切工件。


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%9A%80-4-quickstart

🚀 4. 快速开始

使用 llama.cpp 运行(标准启动——适用于任何构建):

# 显示 128k 上下文;基础模型原生支持 256k,并通过 RoPE 缩放可扩展至约 1M。
# 采样值匹配 Qwen3.6 推荐的无思考模式默认值——这是此调校所训练的推理路径,因此推荐使用这些值。
llama-server -hf bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M \
    --jinja -ngl 99 -fa -c 131072 \
    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
    --presence-penalty 1.5

使用上游 llama.cpp + MTP 推测解码运行(ggml-org/llama.cpp(https://github.com/ggml-org/llama.cpp),MTP 支持已合并于 PR #22673(https://github.com/ggml-org/llama.cpp/pull/22673)):

# 此版本中的 nextn 预测头通过上游的 draft-mtp 推测器激活。
# 使用 MTP 时 -np 必须为 1(并行插槽尚不支持 MTP)。
llama-server -hf bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M \
    --spec-type draft-mtp \
    --spec-draft-n-max 3 \
    -np 1 \
    --jinja -ngl 99 -fa -c 131072 \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
    --presence-penalty 1.5

使用 Ollama 运行:

ollama run hf.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M

下载单个 GGUF 文件:

hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF \
    Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --local-dir .

下载整个仓库:

hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF --local-dir .

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#multi-modal-inference-image–video

多模态推理(图像 + 视频)

此版本兼容 Qwen3.6 的 mmproj-F16.gguf 侧车,用于视觉语言推理。单个 mmproj 文件与此版本中的每个量化配对;投影器在架构上与基础模型的视觉塔绑定,而非 LM 量化级别,因此只需下载一次即可重复使用。

兼容的 mmproj 可从 unsloth/Qwen3.6-27B-MTP-GGUF(https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF)下载。

此版本中的微调为纯语言——视觉编码器权重未被修改。因此图像/视频理解能力与上游 Qwen3.6-27B 基础模型保持不变;此版本不声称对其有所改进,仅保持原样。

# 从此仓库拉取 LM 权重
hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF \
    Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --local-dir .

# 拉取兼容的 mmproj 侧车
hf download unsloth/Qwen3.6-27B-MTP-GGUF \
    mmproj-F16.gguf \
    --local-dir .

# 启动带视觉功能的 llama-server
llama-server -m ./Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --mmproj ./mmproj-F16.gguf \
    --jinja -ngl 99 -fa -c 131072 \
    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
    --presence-penalty 1.5

如需快速进行文本+图像会话而无需启动服务器:

llama-mtmd-cli -m ./Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --mmproj ./mmproj-F16.gguf

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#use-as-an-openai-compatible-api

用作 OpenAI 兼容 API

llama-server 暴露了一个 OpenAI 兼容的 /v1/chat/completions 端点,因此任何针对 OpenAI SDK 编写的客户端都可以直接指向它——无需修改客户端:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8080/v1",
    api_key="not-needed",
)

resp = client.chat.completions.create(
    model="Qwen3.6-27B-MTP-pi-tune",
    messages=[
        {"role": "system", "content": "You are a precise coding agent."},
        {"role": "user", "content": "Write a Python function that merges overlapping intervals."},
    ],
)

print(resp.choices[0].message.content)

同一端点接受 tools=[...] 用于函数调用,并通过 stream=True 支持流式输出。


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%A7%AC-5-training–data-notes

🧬 5. 训练与数据说明

基于真实代理轨迹进行微调,而非合成生成或蒸馏聊天——每个训练行都是一个通过 PI 风格框架实际端到端执行任务的助手留下的痕迹,导出为 Qwen 兼容的 ChatML 行,保留工具模式和运行时提示。

高级任务覆盖范围包括:

  • 终端和Shell环境代理任务
  • 工具/函数调用交互
  • 多语言代码编辑和修复任务
  • 仓库问题解决和测试驱动补丁
  • 编码和API集成任务
  • Shell、包管理、迁移、运维和验证器驱动任务

🧭 训练理念

使用4 位 QLoRA SFT 进行训练。训练行导出时移除了内部推理轨迹,助手轮次按照 Qwen3.6 的无思考风格格式化。此版本所提供的是无思考路径的质量——这就是调校训练的路径,也应在此路径上运行。

具体的数据集名称和训练行数在此初始卡片中刻意省略。


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%E2%9A%A1-6-mtp-throughput

⚡ 6. MTP 吞吐量

MTP 代表多Token预测。模型草拟可能的未来Token,运行时在它们与主解码路径一致时接受它们。在本地代理工作中这很重要,因为长推理、代码生成、工具调用设置和面向Shell的轮次否则大部分实际时间都花费在等待生成上。

以下数字描述了此版本的当前本地性能概况。它们来自针对 PI 框架的内部运行的代表性数据——完整基准测试即将发布,并将用 §7 中的任务成功率表取代这些数字。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#raw-decode-profile

原始解码性能概况

指标数值
提示/预填充~615 tok/s
解码/生成~40 tok/s
端到端请求~71 tok/s
MTP 草稿接受率~78%

读取和处理提示/上下文Token。 llama.cpp 报告的原始生成Token速度。 完整 llama 请求在提示和解码间的吞吐量。 主解码路径接受的草拟未来Token比例。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#agentic-throughput

代理吞吐量

代理数字不同于原始Token/秒。它衡量代理运行中的实际任务吞吐量——包括模型生成、工具调用、Shell命令、包安装、文件 I/O 和面向验证器的工作。

指标数值
有效输出~33 tok/s
有效总量~1.6k tok/s

输出Token除以完整的代理执行时间。 框架统计的输入+输出Token,端到端。

有效输出吞吐量计算方式为:sum(output tokens) / sum(agent execution duration) 这使其成为比纯解码速度更现实的代理工作流数字——它包括了通过框架操作的时间,而不仅是生成文本的时间。


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%8A-7-coding-eval-benchmarks

📊 7. 编码评估基准

🛰️ 即将发布

任务成功率基准单独跟踪,将在本卡片的后续更新中发布。吞吐量回答的是本地 MTP 堆栈运行多快;编码评估回答的是代理实际解决任务的成功率——两者不应相互推断。后续版本将覆盖 §5 中列出的高级领域的任务成功率:终端/Shell代理任务、工具和函数调用、多语言代码编辑、仓库问题解决以及编码/API集成任务。

上述吞吐量数据来自本地启用 MTP 的运行。任务成功率应仅从已完成的评估运行中报告,而非从速度推断。


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%8E%AF-8-recommended-use-cases

🎯 8. 推荐使用场景

  • 本地编码代理实验
  • 重度工具聊天和函数调用实验
  • DevOps 故障排除和剧本起草
  • 仓库导航、补丁规划和测试迭代
  • 偏好本地推理的长上下文工程工作流

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%E2%9A%A0%EF%B8%8F-9-limitations

⚠️ 9. 局限性

  • 这是一个社区版本,用于研究、评估和工作流探索
  • 低比特量化可能会降低指令遵循和工具调用可靠性
  • 编码评估成功率在此初始卡片中尚未最终确定
  • 本卡片不声称安全性对齐超出从基础模型和微调数据继承的行为

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%9C-10-license

📜 10. 许可证

根据 Apache 2.0(https://huggingface.co/Qwen/Qwen3.6-27B/blob/main/LICENSE)许可证发布,继承自上游 Qwen3.6-27B 基础模型。您可以根据该许可证的条款自由使用、修改和重新分发模型及其衍生作品。


https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%99%8F-11-acknowledgements

🙏 11. 致谢

感谢 Qwen 团队提供 Qwen3.6 基础模型及其 MTP 设计,感谢 ggml-org / llama.cpp 维护者在上游提供原生多Token预测支持,以及更广泛的开源量化工具社区,其工作使得前沿模型在本地优先推理成为可能。

专为本地代理循环构建 · 速度在关键之处 · 上下文在需要之处 · 每个量化版本都带 MTP

128k 已测试 · 256k 原生 · 1M 最大 · ~78% MTP 草稿接受率 · ~1.6k tok/s 端到端代理吞吐量

相似文章

unsloth/Qwen3.6-27B-MTP-GGUF

Hugging Face Models Trending

Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

Hugging Face Models Trending

该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

Qwen3.6-27B-GGUF 重磅发布!

Reddit r/LocalLLaMA

社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。

Unsloth 上的 MTP

Reddit r/LocalLLaMA

Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。