Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF
摘要
GGUF量化版本的Qwopus3.6-27B-Coder-MTP模型已发布在Hugging Face上,针对本地推理进行了优化,兼容Transformers、vLLM、SGLang和Unsloth Studio。
查看缓存全文
缓存时间: 2026/06/12 14:52
Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF · Hugging Face 来源:https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF
使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 的指南(适用于库、推理提供商、笔记本和本地应用)。请通过这些链接快速上手。
- 库
- Transformers (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?library=transformers)
如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 Transformers:
# 使用 pipeline 作为高级辅助工具
from transformers import pipeline
pipe = pipeline("image-text-to-text", model="Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF")
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
},
]
pipe(text=messages)
# 直接从 Transformers 加载模型
from transformers import AutoModel
model = AutoModel.from_pretrained("Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF", dtype="auto")
- 笔记本
- Google Colab (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/colab)
- Kaggle (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/kaggle)
- 本地应用
- 设置 (https://huggingface.co/settings/local-apps)
- vLLM (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=vllm)
如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 vLLM:
从 pip 安装并启动模型
# 从 pip 安装 vLLM:pip install vllm
# 启动 vLLM 服务器:vllm serve "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF"
# 使用 curl 调用服务器(兼容 OpenAI API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Describe this image in one sentence." },
{ "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } }
]
}
]
}'
使用 Docker
docker model run hf.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF
- SGLang (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=sglang)
如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 SGLang:
从 pip 安装并启动模型
# 从 pip 安装 SGLang:pip install sglang
# 启动 SGLang 服务器:python3 -m sglang.launch_server \
--model-path "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF" \
--host 0.0.0.0 \
--port 30000
# 使用 curl 调用服务器(兼容 OpenAI API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Describe this image in one sentence." },
{ "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } }
]
}
]
}'
使用 Docker 镜像
docker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF" \
--host 0.0.0.0 \
--port 30000
# 使用 curl 调用服务器(兼容 OpenAI API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Describe this image in one sentence." },
{ "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } }
]
}
]
}'
- Unsloth Studio (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=unsloth)
如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 Unsloth Studio:
安装 Unsloth Studio(macOS、Linux、WSL)
curl -fsSL https://unsloth.ai/install.sh | sh
# 运行 unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# 然后在浏览器中打开 http://localhost:8888
# 搜索 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 开始对话
安装 Unsloth Studio(Windows)
irm https://unsloth.ai/install.ps1 | iex
# 运行 unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# 然后在浏览器中打开 http://localhost:8888
# 搜索 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 开始对话
使用 HuggingFace Spaces 运行 Unsloth
# 无需配置
# 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio
# 搜索 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 开始对话
使用 FastModel 加载模型
pip install unsloth
from unsloth import FastModel
model, tokenizer = FastModel.from_pretrained(
model_name="Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
max_seq_length=2048,
)
- Docker Model Runner (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=docker-model-runner)
如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 Docker Model Runner:
docker model run hf.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF
- 浏览量化版本 (https://huggingface.co/models?other=base_model:quantized:Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF) 以在 llama.cpp、Ollama、LM Studio 或任何兼容应用中使用此模型。
🪐 Qwopus-3.6-27B-Coder Coder SFT Release Agentic Coding & Tool-Use Reasoning Model Fine-Tuned on Qwopus3.6-27B-v2 🧬 迹反转与负熵 🧠 27B Dense Model ⚡ 智能编码 🛠️ 工具调用与智能体 🏆 SWE-bench Verified: 67.0%(无思考模式)
💡 什么是 Qwopus-3.6-27B-Coder?
🪐 Qwopus-3.6-27B-Coder 是一个基于 Qwopus3.6-27B-v2 构建的推理增强型智能编码模型。它继承了 v2 基座强大的推理基础——在 MMLU-Pro (300ex) 上达到 87.43%,在 SWE-bench Verified 上达到 75.25%——并进一步专精于智能代码生成、结构化工具调用、调试以及开发者工作流中的指令遵循。该模型旨在擅长仓库级编码任务、多轮工具编排以及真实智能体环境下的复杂逻辑推理。
🧩 智能编码:针对仓库级编码、调试、补丁生成和结构化多步开发工作流进行了优化。
🛠️ 工具调用:从真实的智能体轨迹中学习,包含工具定义、工具调用和环境反馈,以实现稳健的多轮执行。
🧬 迹反转:继承了完整的 Qwopus 训练配方,利用从 Claude Opus 重构的逐步推理轨迹。
🚀 27B 规模:密集 27B 参数,原生支持长上下文,在提供深度推理的同时实现实用的单 GPU 部署。
社区发布说明:Qwopus-3.6-27B-Coder 是一个实验性社区版本,旨在用于研究、评估和智能体工作流探索。它尚未经过完整的安全评估或广泛的通用领域基准测试。 基准测试状态:首个完成的基准测试是 SWE-bench Verified 全 500 项,在思考关闭/无思考模式下运行,Q5_K_M 27B GGUF 版本解决了 335/500 = 67.0%。其他基准测试套件仍在进行中,将在测试完成后更新。
https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%92%A1-1-base-model-training-stack–collaboration
💡 1. 基座模型、训练栈与协作
🧠 1.1 基座模型:Qwopus3.6-27B-v2
Qwopus3.6-27B-v2 是一个基于 Qwen3.6-27B 构建的推理增强型密集语言模型。通过多阶段课程学习流程和迹反转增强,其在知识、编码和推理基准测试上取得了强劲表现。该编码变体继承了这一基础,并通过专门的编码和工具使用数据进行了扩展。
| 属性 | 规格与细节 |
|---|---|
| 🧠 架构 | 密集 Transformer / 27B 参数 |
| 🏢 基座开发者 | 阿里巴巴集团(DAMO 学院)—— Qwen3.6-27B |
| 🎯 主要关注点 | 智能编码、工具调用稳定性、代码调试、结构化指令遵循、仓库级任务 |
| 🧬 蒸馏策略 | 迹反转 + 高质量智能体轨迹 + 课程 SFT |
| 📄 上下文窗口 | 原生支持高达 32K tokens(微调目标);通过 RoPE/YaRN 缩放兼容更长上下文 |
🧪 1.2 硬件合作与联合协作
本项目与工程师 Kyle Hessling 密切合作,其硬件基础设施和训练支持使得稳定的 27B 级微调和评估成为可能。
👉 你可以在 X/Twitter 上关注他以获取硬件和模型训练更新:@KyleHessling1 (https://x.com/KyleHessling1)
🦥 1.3 微调框架(Unsloth)
模型训练工作流通过 Unsloth 进行了加速和内存优化。特别感谢 Unsloth 团队使高效的大模型微调变得可行。
⚡ 1.4 MTP 变体:更快的推测解码
该模型还提供了一个多 Token 预测(MTP) 变体,具有辅助预测头(draft=2),用于推测解码。基于 Qwopus3.6-27B-v2-MTP 基准测试,MTP 变体比标准解码实现了约 1.66 倍加速,同时保持了准确性。详见 Qwopus3.6-27B-v2-MTP (https://huggingface.co/Jackrong/Qwopus3.6-27B-v2-MTP) 模型卡以获取详细的 MTP 性能分析。
🌟 自定义 MTP 头处理流程已在 qwen-mtp-gguf (https://github.com/R6410418/Jackrong-llm-finetuning-guide/tree/main/qwen-mtp-gguf) 开源。如果你觉得此工具包有用,请考虑在 GitHub 上点星!
https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%93%96-2-background–motivation
📖 2. 背景与动机
🎯 2.1 为什么需要一个 27B 的编码模型?
Qwopus 编码系列在 4B 和 9B 规模上已经展现出强劲成效。27B 编码变体代表了推理深度、代码生成质量以及工具调用鲁棒性的重大飞跃。在 27B 参数规模下,该模型拥有足够的容量来内化复杂的仓库结构、多文件依赖关系以及微妙的工具调用模式——同时仍可部署在单 GPU(如 RTX 5090)上。这一规模弥合了紧凑的本地模型与昂贵的基于 API 的解决方案之间的差距,使其适用于生产级的智能编码工作流。
🧬 2.2 迹反转与智能体行为
商业和前沿模型通常只暴露压缩的推理摘要。Qwopus 风格的训练使用迹反转将这些压缩的“推理气泡”(Reasoning Bubbles)重构为更完整的可学习推理轨迹。对于编码而言,这结合了包含工具定义、工具调用和真实反馈的智能体轨迹,教会模型通过交互性工作而非仅生成静态答案来进行推理。
该模型整合了:
- claude-opus-4.6-traceInversion-9000x:9,000 个高价值的、完全重构的逐步推理轨迹。
- claude-opus-4.7-traceInversion-5000x:5,000 个复杂的多轮逻辑和数学样本,针对负熵重构进行了优化。
- lambda/hermes-agent-reasoning-traces:约 10,000 个来自 GLM-5.1 和 kimi-4.6 模型的高质量多轮工具调用轨迹。
📦 2.3 专门数据集:迹反转与智能体轨迹
迹反转:使用专门的逻辑重构器 Trace-Inverter-4B (https://huggingface.co/Jackrong/Trace-Inverter-4B) 来逆向工程压缩的推理气泡,将其还原为完整的、逐步可学习的 CoT 链条。该方法通过确保模型学习连续、严谨的逻辑推导,解决了 “信息熵陷阱”——即直接模仿压缩摘要会导致推理断裂。
智能体轨迹(lambda/hermes-agent-reasoning-traces):每个样本包含实际的多轮工具执行结果(而非虚构输出),并在 think 标签内逐步推理。覆盖范围包括:
- 终端与编码:脚本编写、调试、环境配置
- 仓库任务:Bug 修复、重构、代码审查
- 浏览器自动化:网页导航、抓取、表单填写
- 智能体工具:记忆持久化、任务委派、技能管理
https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%93%8A-3-performance-benchmarks
📊 3. 性能基准测试
📊 评估与性能指标
首个完成的结果:SWE-bench Verified 全 500 项,在无思考模式下评估,以支持快速的本地智能编码。
⚡ 无思考 SWE-bench 结果
此基准测试有意在思考关闭状态下运行。目标是展示该模型在作为快速本地智能体使用时的实际编码能力,而无需依赖冗长的可见推理轨迹。在 RTX 5090 上启用 MTP 后,模型运行速度约为 100 tokens/秒,使得该结果对于交互式开发工作流尤为相关。
| 指标 | 结果 |
|---|---|
| SWE-bench Verified | 67.0%(335 / 500 解决) |
| 推理模式 | 思考关闭(无需可见 CoT) |
| 本地吞吐量 | ~100 t/s(RTX 5090 + MTP) |
| 评估构建 | Q5_K_M (27B GGUF 量化) |
评估设置:SWE-bench Verified 全 500,Qwopus-3.6-27B-Coder Q5_K_M GGUF,思考关闭/无思考模式。最终得分:335/500 = 67.0%。
💻 3.1 SWE-bench Verified:全 500 无思考结果
SWE-bench Verified 衡量模型能否通过编辑仓库代码并传递隐藏测试来解决真实的 GitHub 问题。在此次运行中,Qwopus-3.6-27B-Coder 以无思考模式解决了 335 个 经过验证的任务(共 500 个),优先考虑直接行动质量和本地速度,而非冗长的显式推理。
| 指标 | 结果 | 说明 |
|---|---|---|
| 最终得分 | 335/500 = 67.0% | 全 SWE-bench Verified 500 项任务划分 |
| 模式 | 思考关闭 | 评估期间无长篇可见思维链 |
| 量化 | Q5_K_M GGUF | 本地 27B 量化部署 |
| 吞吐量 | ~100 tokens/秒 | 在 RTX 5090 上启用 MTP 时观察所得 |
🧩 3.2 仓库级分类
结果在诸如 scikit-learn、xarray、requests 和 Django 等实际库维护任务上最为强劲,同时在符号数学、测试基础设施、文档工具和绘图库上也表现出扎实的覆盖。
| 仓库 | 解决率 |
|---|---|
| scikit-learn | 27/32 (84%) |
| pydata/xarray | 18/22 (82%) |
| psf/requests | 6/8 (75%) |
| django | 166/231 (72%) |
| sympy | 48/75 (64%) |
| pytest | 12/19 (63%) |
| sphinx-doc | 26/44 (59%) |
| matplotlib | 20/34 (59%) |
| astropy | 9/22 (41%) |
| pylint | 2/10 (20%) |
⚖️ 3.3 SWE-bench Verified 参考对比
重要对比说明:以下参考得分来自外部模型报告,通常为思考启用状态或特定测试框架下。Qwopus-3.6-27B-Coder 在此显示为无思考、量化本地运行,因此此表应理解为定位背景,而非严格的同模式排行榜。
| 模型 | 思考模式 | SWE-bench Verified | 背景 |
|---|---|---|---|
| Qwopus-3.6-27B-Coder | 关闭 / 无思考 | 67.0 | Q5_K_M, RTX 5090 + MTP, ~100 t/s |
| OpenAI GPT-5 | 开启 | 70.1 | 思考开启参考 |
| OpenAI GPT-5 mini | 开启 | 59.8 | 思考开启参考 |
| OpenAI GPT-5 nano | 开启 | 34.8 | 思考开启参考 |
| GLM-4.7 | 开启 | 70.6 | OpenHands 参考 |
| GLM-4.5-Air | 开启 | 57.6 | OpenHands 参考 |
| Qwen3-Coder-30B-A3B-Instruct (2025-07) | 关闭 / 无思考 | 70.3 | 无思考参考 |
| Claude 4.0 Opus | 开启 | 67.6 | 思考开启参考 |
| Claude 4.5 Opus | 开启 | 80.9 | 思考开启参考 |
| Qwen3.6-27B | 开启 | 77.2 | 思考开启参考 |
| Qwen3.5-397B-A17B | 开启 | 76.2 | 思考开启参考 |
| Qwen3.5-27B | 开启 | 75.0 | 思考开启参考 |
| Qwen3.6-35B-A3B | 开启 | 73.4 | 思考开启参考 |
| Gemma4-31B | 开启 | 52.0 | 思考开启参考 |
| Gemma4-26B-A4B | 开启 | 17.4 | 思考开启参考 |
🎮 3.4 实时思考关闭演示:Boat Survival
Kyle Hessling 还在一个小型互动游戏环境中测试了 Qwopus-3.6-27B-Coder,并且关闭了思考功能。该演示是针对快速决策的实际冒烟测试。
相似文章
Jackrong/Qwopus3.6-27B-v2-MTP-GGUF
Jackrong/Qwopus3.6-27B-v2-MTP-GGUF 是 27B 参数语言模型的 GGUF 量化版本,托管在 Hugging Face 上,并附有使用各种库和工具的说明。
Jackrong/Qwopus3.6-27B-v2-GGUF
Qwopus3.6-27B-v2是Qwen3.6-27B的推理增强微调版本,使用Trace Inversion数据集和课程学习,以GGUF格式发布以实现高效推理。
Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF
Jackrong 发布了 Qwopus3.5-9B-Coder-MTP-GGUF,这是一个基于 Qwen 的 9B 代码模型,采用多令牌预测 (MTP) 架构进行微调,相较于基模型实现了 35.8% 的吞吐量提升和 8.3% 的准确率提升,在代码和数学基准测试中取得满分。
Jackrong/Qwopus3.6-35B-A3B-v1-GGUF
Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。
Jackrong/Qwopus-GLM-18B-Merged-GGUF
Jackrong 发布了 Qwopus-GLM-18B-Merged-GGUF,这是一个结合两个 Qwen3.5-9B 微调模型的 64 层“弗兰肯合并”模型,参数规模约 18B。通过 1000 步 LoRA 微调修复了层边界问题。该模型在能力基准测试中达到 90.9%,而显存消耗不到 Qwen 3.6-35B MoE 的一半。