bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF

Hugging Face Models Trending 2026/06/02 08:31 模型

fine-tuning gguf multi-token-prediction coding-agent local-inference qlora no-thinking

摘要

bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本，打包为 GGUF 格式，用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。

任务：text-generation 标签：gguf, llama.cpp, qwen, qwen3_6, mtp, multi-token-prediction, speculative-decoding, conversational, image-text-to-text, multimodal, vision, image, text-generation-inference, reasoning, chain-of-thought, agent, coder, devops, tool-use, function-calling, long-context, pi, qlora, sft, text-generation, base_model:Qwen/Qwen3.6-27B, base_model:finetune:Qwen/Qwen3.6-27B, license:apache-2.0, model-index, endpoints_compatible, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:20

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF · Hugging Face 来源：https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF 无思考 · PI 调校 · MTP · GGUF

🪐 Qwen3.6-27B-MTP-pi-tune

对 Qwen3.6-27B 进行 4 位 QLoRA SFT 多Token预测微调，通过 PI 风格框架专门针对无思考代理编码进行优化。打包为兼容 llama.cpp 的 GGUF 格式，适用于本地代理循环。

🧠 27B 稠密基础 · 🚫 无思考调校 · ⚡ MTP 推测解码 · 🛠️ 编码 · DevOps · 代理 · 📦 llama.cpp GGUF · 🖼️ 多模态兼容 · 🪟 原生 256k · 最大 1M 上下文

如需最强 Pi 风格编码代理行为，请使用推理训练版：bytkim/Qwen3.6-27B-MTP-pi-reasoning-GGUF（https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-reasoning-GGUF）。更多评估上下文请参考技术文章（https://huggingface.co/blog/bytkim/qwen36-27b-reasoning）。当您特意需要低延迟的直接/指令路径时，此无思考调校版本依然有用。

⚡ MTP 解码

多Token预测可草拟未来Token，在主解码路径同意时接受它们——从而减少长推理、代码生成和工具调用设置中的实际耗时。

🧩 无思考设计

基于 Qwen3.6 的无思考推理路径进行训练。模型直接响应工具调用、编辑和结构化输出——无需...前言占用框架可操作前的实际时间。

🧪 本地优先吞吐量

专为在单台工作站上运行 llama.cpp 类运行时而设计，并在实际代理负载上测量 MTP 草稿接受率。

🚀 实用速度

为等待几分钟才能完成一次轮换会破坏循环的工作流而构建——该调校倾向于果断输出而非草稿扩展。

上下文窗口

128k 已测试 · 基础模型原生支持 256k · 通过 RoPE 缩放可扩展至 1M Token。

MTP 草稿接受率 ~78%

在代理负载上，主解码路径接受约 78% 的草拟未来Token。3 个推测步骤 · 4 个草稿Token。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%92%A1-1-model-overview

💡 1. 模型概览

属性	详情
基础模型	`Qwen/Qwen3.6-27B`（https://huggingface.co/Qwen/Qwen3.6-27B）
发布格式	GGUF
运行时目标	兼容 llama.cpp 的本地推理
调校重点	框架流畅性、编码代理任务、终端工作流、工具使用、仓库操作
微调风格	基于私有已通过代理轨迹的 4 位 QLoRA SFT
技术文章	Qwen3.6 27B 推理文章（https://huggingface.co/blog/bytkim/qwen36-27b-reasoning）
推理数据策略	内部推理轨迹未导出至 SFT 行
推荐量化	`Q4_K_M` 作为默认起点

Qwen3.6-27B 是一个带有视觉编码器的因果语言模型。支持图像和视频理解，只需将语言模型 GGUF 与兼容的 Qwen3.6 mmproj-F16.gguf 侧车配对使用（参见 §4 多模态推理）。MTP 草稿头在所有量化版本中保持 Q8_0 精度，通过在量化时使用 --tensor-type nextn=q8_0 实现——推测解码可在任何量化级别工作，不仅限于 Q8_0/bf16。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%A7%A9-2-why-this-tune

🧩 2. 为何选择此调校

Qwen3.6 支持思考推理模式（在响应前输出一个...块）和无思考模式（模型直接回答并行动）。此版本特别针对无思考路径进行微调——代理循环实际运行的模式。

在运行工具调用循环的 PI 风格框架中，每一个思考Token都是框架无法调度下一个操作的实际耗时。因此，此调校旨在将无思考路径的质量提升到关键之处：工具调用、仓库编辑、终端命令、验证器反馈和结构化输出。

这延续了 Qwen3.6 现有的代理编码姿态——前端工作流、仓库级推理和工具调用——但将质量拉入本地代理运行时能够预算的推理模式。

终端和Shell任务执行
仓库检查、补丁和测试迭代
工具调用形式的交互和结构化输出
DevOps 剧本、环境搭建和调试循环
注重命令使用、文件编辑和验证器反馈的编码任务

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%A6-3-quantizations

📦 3. 量化

推荐起点：Q4_K_M。

量化	文件大小	VRAM（约）	建议用途
`Q2_K`	~11 GB	~13 GB	最小内存占用；预期有质量折衷
`Q3_K_S`	~12 GB	~15 GB	低内存 3 位选项
`Q3_K_M`	~14 GB	~16 GB	平衡的 3 位选项
`Q3_K_L`	~15 GB	~17 GB	更高质量的 3 位选项
`Q4_K_S`	~16 GB	~18 GB	较小的 4 位选项
`Q4_K_M`	~17 GB	~19 GB	大多数本地使用的默认推荐。24 GB GPU 可舒适运行
`Q5_K_S`	~19 GB	~21 GB	更高质量的 5 位选项
`Q5_K_M`	~20 GB	~22 GB	质量/内存平衡良好；接近 24 GB GPU 的上限
`Q6_K`	~22 GB	~25 GB	如果有足够内存的高质量本地推理
`Q8_0`	~29 GB	~32 GB	最高精度量化选项
`bf16`	~55 GB	~58 GB	BF16 GGUF 参考（如果存在）

VRAM 数字为在中等上下文（~32k）下使用量化 KV 缓存进行 GPU 卸载推理（-ngl 99 -fa）的粗略估计；随上下文增长而增加。

此版本中的每个量化都附带以 Q8_0 精度存储的 MTP nextn 预测头，无论整体量化目标如何。这意味着推测解码可在任何量化级别工作——选择适合您 VRAM 的最小版本，您仍能获得 §6 中描述的 MTP 吞吐量特性。

某些文件可能仍在上传中。请查看“文件”标签页以获取当前可用的确切工件。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%9A%80-4-quickstart

🚀 4. 快速开始

使用 llama.cpp 运行（标准启动——适用于任何构建）：

# 显示 128k 上下文；基础模型原生支持 256k，并通过 RoPE 缩放可扩展至约 1M。
# 采样值匹配 Qwen3.6 推荐的无思考模式默认值——这是此调校所训练的推理路径，因此推荐使用这些值。
llama-server -hf bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M \
    --jinja -ngl 99 -fa -c 131072 \
    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
    --presence-penalty 1.5

使用上游 llama.cpp + MTP 推测解码运行（ggml-org/llama.cpp（https://github.com/ggml-org/llama.cpp），MTP 支持已合并于 PR #22673（https://github.com/ggml-org/llama.cpp/pull/22673））：

# 此版本中的 nextn 预测头通过上游的 draft-mtp 推测器激活。
# 使用 MTP 时 -np 必须为 1（并行插槽尚不支持 MTP）。
llama-server -hf bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M \
    --spec-type draft-mtp \
    --spec-draft-n-max 3 \
    -np 1 \
    --jinja -ngl 99 -fa -c 131072 \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
    --presence-penalty 1.5

使用 Ollama 运行：

ollama run hf.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF:Q4_K_M

下载单个 GGUF 文件：

hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF \
    Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --local-dir .

下载整个仓库：

hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF --local-dir .

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#multi-modal-inference-image–video

多模态推理（图像 + 视频）

此版本兼容 Qwen3.6 的 mmproj-F16.gguf 侧车，用于视觉语言推理。单个 mmproj 文件与此版本中的每个量化配对；投影器在架构上与基础模型的视觉塔绑定，而非 LM 量化级别，因此只需下载一次即可重复使用。

兼容的 mmproj 可从 unsloth/Qwen3.6-27B-MTP-GGUF（https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF）下载。

此版本中的微调为纯语言——视觉编码器权重未被修改。因此图像/视频理解能力与上游 Qwen3.6-27B 基础模型保持不变；此版本不声称对其有所改进，仅保持原样。

# 从此仓库拉取 LM 权重
hf download bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF \
    Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --local-dir .

# 拉取兼容的 mmproj 侧车
hf download unsloth/Qwen3.6-27B-MTP-GGUF \
    mmproj-F16.gguf \
    --local-dir .

# 启动带视觉功能的 llama-server
llama-server -m ./Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --mmproj ./mmproj-F16.gguf \
    --jinja -ngl 99 -fa -c 131072 \
    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0 \
    --presence-penalty 1.5

如需快速进行文本+图像会话而无需启动服务器：

llama-mtmd-cli -m ./Qwen3.6-27B-MTP-pi-tune-Q4_K_M.gguf \
    --mmproj ./mmproj-F16.gguf

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#use-as-an-openai-compatible-api

用作 OpenAI 兼容 API

llama-server 暴露了一个 OpenAI 兼容的 /v1/chat/completions 端点，因此任何针对 OpenAI SDK 编写的客户端都可以直接指向它——无需修改客户端：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8080/v1",
    api_key="not-needed",
)

resp = client.chat.completions.create(
    model="Qwen3.6-27B-MTP-pi-tune",
    messages=[
        {"role": "system", "content": "You are a precise coding agent."},
        {"role": "user", "content": "Write a Python function that merges overlapping intervals."},
    ],
)

print(resp.choices[0].message.content)

同一端点接受 tools=[...] 用于函数调用，并通过 stream=True 支持流式输出。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%A7%AC-5-training–data-notes

🧬 5. 训练与数据说明

基于真实代理轨迹进行微调，而非合成生成或蒸馏聊天——每个训练行都是一个通过 PI 风格框架实际端到端执行任务的助手留下的痕迹，导出为 Qwen 兼容的 ChatML 行，保留工具模式和运行时提示。

高级任务覆盖范围包括：

终端和Shell环境代理任务
工具/函数调用交互
多语言代码编辑和修复任务
仓库问题解决和测试驱动补丁
编码和API集成任务
Shell、包管理、迁移、运维和验证器驱动任务

🧭 训练理念

使用4 位 QLoRA SFT 进行训练。训练行导出时移除了内部推理轨迹，助手轮次按照 Qwen3.6 的无思考风格格式化。此版本所提供的是无思考路径的质量——这就是调校训练的路径，也应在此路径上运行。

具体的数据集名称和训练行数在此初始卡片中刻意省略。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%E2%9A%A1-6-mtp-throughput

⚡ 6. MTP 吞吐量

MTP 代表多Token预测。模型草拟可能的未来Token，运行时在它们与主解码路径一致时接受它们。在本地代理工作中这很重要，因为长推理、代码生成、工具调用设置和面向Shell的轮次否则大部分实际时间都花费在等待生成上。

以下数字描述了此版本的当前本地性能概况。它们来自针对 PI 框架的内部运行的代表性数据——完整基准测试即将发布，并将用 §7 中的任务成功率表取代这些数字。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#raw-decode-profile

原始解码性能概况

指标	数值
提示/预填充	~615 tok/s
解码/生成	~40 tok/s
端到端请求	~71 tok/s
MTP 草稿接受率	~78%

读取和处理提示/上下文Token。 llama.cpp 报告的原始生成Token速度。完整 llama 请求在提示和解码间的吞吐量。主解码路径接受的草拟未来Token比例。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#agentic-throughput

代理吞吐量

代理数字不同于原始Token/秒。它衡量代理运行中的实际任务吞吐量——包括模型生成、工具调用、Shell命令、包安装、文件 I/O 和面向验证器的工作。

指标	数值
有效输出	~33 tok/s
有效总量	~1.6k tok/s

输出Token除以完整的代理执行时间。框架统计的输入+输出Token，端到端。

有效输出吞吐量计算方式为：sum(output tokens) / sum(agent execution duration) 这使其成为比纯解码速度更现实的代理工作流数字——它包括了通过框架操作的时间，而不仅是生成文本的时间。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%8A-7-coding-eval-benchmarks

📊 7. 编码评估基准

🛰️ 即将发布

任务成功率基准单独跟踪，将在本卡片的后续更新中发布。吞吐量回答的是本地 MTP 堆栈运行多快；编码评估回答的是代理实际解决任务的成功率——两者不应相互推断。后续版本将覆盖 §5 中列出的高级领域的任务成功率：终端/Shell代理任务、工具和函数调用、多语言代码编辑、仓库问题解决以及编码/API集成任务。

上述吞吐量数据来自本地启用 MTP 的运行。任务成功率应仅从已完成的评估运行中报告，而非从速度推断。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%8E%AF-8-recommended-use-cases

🎯 8. 推荐使用场景

本地编码代理实验
重度工具聊天和函数调用实验
DevOps 故障排除和剧本起草
仓库导航、补丁规划和测试迭代
偏好本地推理的长上下文工程工作流

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%E2%9A%A0%EF%B8%8F-9-limitations

⚠️ 9. 局限性

这是一个社区版本，用于研究、评估和工作流探索
低比特量化可能会降低指令遵循和工具调用可靠性
编码评估成功率在此初始卡片中尚未最终确定
本卡片不声称安全性对齐超出从基础模型和微调数据继承的行为

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%93%9C-10-license

📜 10. 许可证

根据 Apache 2.0（https://huggingface.co/Qwen/Qwen3.6-27B/blob/main/LICENSE）许可证发布，继承自上游 Qwen3.6-27B 基础模型。您可以根据该许可证的条款自由使用、修改和重新分发模型及其衍生作品。

https://huggingface.co/bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF#%F0%9F%99%8F-11-acknowledgements

🙏 11. 致谢

感谢 Qwen 团队提供 Qwen3.6 基础模型及其 MTP 设计，感谢 ggml-org / llama.cpp 维护者在上游提供原生多Token预测支持，以及更广泛的开源量化工具社区，其工作使得前沿模型在本地优先推理成为可能。

专为本地代理循环构建 · 速度在关键之处 · 上下文在需要之处 · 每个量化版本都带 MTP

128k 已测试 · 256k 原生 · 1M 最大 · ~78% MTP 草稿接受率 · ~1.6k tok/s 端到端代理吞吐量