Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

Hugging Face Models Trending 2026/06/11 23:28 模型

model-release gguf coder-model quantized 27b open-source local-inference

摘要

GGUF量化版本的Qwopus3.6-27B-Coder-MTP模型已发布在Hugging Face上，针对本地推理进行了优化，兼容Transformers、vLLM、SGLang和Unsloth Studio。

任务：image-text-to-text 标签：transformers, gguf, llama.cpp, image-text-to-text, vision, multimodal, text-generation-inference, unsloth, conversational, qwen3_6, reasoning, chain-of-thought, lora, sft, agent, tool-use, function-calling, coder, en, zh, es, ru, ja, 数据集：Jackrong/Claude-opus-4.6-TraceInversion-9000x, 数据集：Jackrong/Claude-opus-4.7-TraceInversion-5000x, 数据集：lambda/hermes-agent-reasoning-traces, 基础模型：Jackrong/Qwopus3.6-27B-v2, 基础模型适配器：Jackrong/Qwopus3.6-27B-v2, 许可证：apache-2.0, 兼容端点, 区域：us

查看原文

查看缓存全文

缓存时间: 2026/06/12 14:52

Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF · Hugging Face 来源：https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 的指南（适用于库、推理提供商、笔记本和本地应用）。请通过这些链接快速上手。

库
- Transformers (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?library=transformers)

如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 Transformers：

# 使用 pipeline 作为高级辅助工具
from transformers import pipeline
pipe = pipeline("image-text-to-text", model="Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
pipe(text=messages)

# 直接从 Transformers 加载模型
from transformers import AutoModel
model = AutoModel.from_pretrained("Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF", dtype="auto")

笔记本
- Google Colab (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/colab)
- Kaggle (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/kaggle)
本地应用
- 设置 (https://huggingface.co/settings/local-apps)
- vLLM (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=vllm)

如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 vLLM：

从 pip 安装并启动模型

# 从 pip 安装 vLLM：pip install vllm
# 启动 vLLM 服务器：vllm serve "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF"
# 使用 curl 调用服务器（兼容 OpenAI API）：
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
  "model": "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Describe this image in one sentence." },
        { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } }
      ]
    }
  ]
}'

使用 Docker

docker model run hf.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

SGLang (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=sglang)

如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 SGLang：

从 pip 安装并启动模型

# 从 pip 安装 SGLang：pip install sglang
# 启动 SGLang 服务器：python3 -m sglang.launch_server \
  --model-path "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF" \
  --host 0.0.0.0 \
  --port 30000
# 使用 curl 调用服务器（兼容 OpenAI API）：
curl -X POST "http://localhost:30000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
  "model": "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Describe this image in one sentence." },
        { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } }
      ]
    }
  ]
}'

使用 Docker 镜像

docker run --gpus all \
  --shm-size 32g \
  -p 30000:30000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HF_TOKEN=" \
  --ipc=host \
  lmsysorg/sglang:latest \
  python3 -m sglang.launch_server \
  --model-path "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF" \
  --host 0.0.0.0 \
  --port 30000
# 使用 curl 调用服务器（兼容 OpenAI API）：
curl -X POST "http://localhost:30000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
  "model": "Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Describe this image in one sentence." },
        { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } }
      ]
    }
  ]
}'

Unsloth Studio (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=unsloth)

如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 Unsloth Studio：

安装 Unsloth Studio（macOS、Linux、WSL）

curl -fsSL https://unsloth.ai/install.sh | sh
# 运行 unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# 然后在浏览器中打开 http://localhost:8888
# 搜索 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 开始对话

安装 Unsloth Studio（Windows）

irm https://unsloth.ai/install.ps1 | iex
# 运行 unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# 然后在浏览器中打开 http://localhost:8888
# 搜索 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 开始对话

使用 HuggingFace Spaces 运行 Unsloth

# 无需配置
# 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio
# 搜索 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 开始对话

使用 FastModel 加载模型

pip install unsloth
from unsloth import FastModel
model, tokenizer = FastModel.from_pretrained(
    model_name="Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF",
    max_seq_length=2048,
)

Docker Model Runner (https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF?local-app=docker-model-runner)

如何使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 与 Docker Model Runner：

docker model run hf.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

浏览量化版本 (https://huggingface.co/models?other=base_model:quantized:Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF) 以在 llama.cpp、Ollama、LM Studio 或任何兼容应用中使用此模型。

🪐 Qwopus-3.6-27B-Coder Coder SFT Release Agentic Coding & Tool-Use Reasoning Model Fine-Tuned on Qwopus3.6-27B-v2 🧬 迹反转与负熵 🧠 27B Dense Model ⚡ 智能编码 🛠️ 工具调用与智能体 🏆 SWE-bench Verified: 67.0%（无思考模式）

💡 什么是 Qwopus-3.6-27B-Coder？

🪐 Qwopus-3.6-27B-Coder 是一个基于 Qwopus3.6-27B-v2 构建的推理增强型智能编码模型。它继承了 v2 基座强大的推理基础——在 MMLU-Pro (300ex) 上达到 87.43%，在 SWE-bench Verified 上达到 75.25%——并进一步专精于智能代码生成、结构化工具调用、调试以及开发者工作流中的指令遵循。该模型旨在擅长仓库级编码任务、多轮工具编排以及真实智能体环境下的复杂逻辑推理。

🧩 智能编码：针对仓库级编码、调试、补丁生成和结构化多步开发工作流进行了优化。

🛠️ 工具调用：从真实的智能体轨迹中学习，包含工具定义、工具调用和环境反馈，以实现稳健的多轮执行。

🧬 迹反转：继承了完整的 Qwopus 训练配方，利用从 Claude Opus 重构的逐步推理轨迹。

🚀 27B 规模：密集 27B 参数，原生支持长上下文，在提供深度推理的同时实现实用的单 GPU 部署。

社区发布说明：Qwopus-3.6-27B-Coder 是一个实验性社区版本，旨在用于研究、评估和智能体工作流探索。它尚未经过完整的安全评估或广泛的通用领域基准测试。 基准测试状态：首个完成的基准测试是 SWE-bench Verified 全 500 项，在思考关闭/无思考模式下运行，Q5_K_M 27B GGUF 版本解决了 335/500 = 67.0%。其他基准测试套件仍在进行中，将在测试完成后更新。

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%92%A1-1-base-model-training-stack–collaboration

💡 1. 基座模型、训练栈与协作

🧠 1.1 基座模型：Qwopus3.6-27B-v2

Qwopus3.6-27B-v2 是一个基于 Qwen3.6-27B 构建的推理增强型密集语言模型。通过多阶段课程学习流程和迹反转增强，其在知识、编码和推理基准测试上取得了强劲表现。该编码变体继承了这一基础，并通过专门的编码和工具使用数据进行了扩展。

属性	规格与细节
🧠 架构	密集 Transformer / 27B 参数
🏢 基座开发者	阿里巴巴集团（DAMO 学院）—— Qwen3.6-27B
🎯 主要关注点	智能编码、工具调用稳定性、代码调试、结构化指令遵循、仓库级任务
🧬 蒸馏策略	迹反转 + 高质量智能体轨迹 + 课程 SFT
📄 上下文窗口	原生支持高达 32K tokens（微调目标）；通过 RoPE/YaRN 缩放兼容更长上下文

🧪 1.2 硬件合作与联合协作

本项目与工程师 Kyle Hessling 密切合作，其硬件基础设施和训练支持使得稳定的 27B 级微调和评估成为可能。

👉 你可以在 X/Twitter 上关注他以获取硬件和模型训练更新：@KyleHessling1 (https://x.com/KyleHessling1)

🦥 1.3 微调框架（Unsloth）

模型训练工作流通过 Unsloth 进行了加速和内存优化。特别感谢 Unsloth 团队使高效的大模型微调变得可行。

⚡ 1.4 MTP 变体：更快的推测解码

该模型还提供了一个多 Token 预测（MTP） 变体，具有辅助预测头（draft=2），用于推测解码。基于 Qwopus3.6-27B-v2-MTP 基准测试，MTP 变体比标准解码实现了约 1.66 倍加速，同时保持了准确性。详见 Qwopus3.6-27B-v2-MTP (https://huggingface.co/Jackrong/Qwopus3.6-27B-v2-MTP) 模型卡以获取详细的 MTP 性能分析。

🌟 自定义 MTP 头处理流程已在 qwen-mtp-gguf (https://github.com/R6410418/Jackrong-llm-finetuning-guide/tree/main/qwen-mtp-gguf) 开源。如果你觉得此工具包有用，请考虑在 GitHub 上点星！

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%93%96-2-background–motivation

📖 2. 背景与动机

🎯 2.1 为什么需要一个 27B 的编码模型？

Qwopus 编码系列在 4B 和 9B 规模上已经展现出强劲成效。27B 编码变体代表了推理深度、代码生成质量以及工具调用鲁棒性的重大飞跃。在 27B 参数规模下，该模型拥有足够的容量来内化复杂的仓库结构、多文件依赖关系以及微妙的工具调用模式——同时仍可部署在单 GPU（如 RTX 5090）上。这一规模弥合了紧凑的本地模型与昂贵的基于 API 的解决方案之间的差距，使其适用于生产级的智能编码工作流。

🧬 2.2 迹反转与智能体行为

商业和前沿模型通常只暴露压缩的推理摘要。Qwopus 风格的训练使用迹反转将这些压缩的“推理气泡”（Reasoning Bubbles）重构为更完整的可学习推理轨迹。对于编码而言，这结合了包含工具定义、工具调用和真实反馈的智能体轨迹，教会模型通过交互性工作而非仅生成静态答案来进行推理。

该模型整合了：

claude-opus-4.6-traceInversion-9000x：9,000 个高价值的、完全重构的逐步推理轨迹。
claude-opus-4.7-traceInversion-5000x：5,000 个复杂的多轮逻辑和数学样本，针对负熵重构进行了优化。
lambda/hermes-agent-reasoning-traces：约 10,000 个来自 GLM-5.1 和 kimi-4.6 模型的高质量多轮工具调用轨迹。

📦 2.3 专门数据集：迹反转与智能体轨迹

迹反转：使用专门的逻辑重构器 Trace-Inverter-4B (https://huggingface.co/Jackrong/Trace-Inverter-4B) 来逆向工程压缩的推理气泡，将其还原为完整的、逐步可学习的 CoT 链条。该方法通过确保模型学习连续、严谨的逻辑推导，解决了 “信息熵陷阱”——即直接模仿压缩摘要会导致推理断裂。

智能体轨迹（lambda/hermes-agent-reasoning-traces）：每个样本包含实际的多轮工具执行结果（而非虚构输出），并在 think 标签内逐步推理。覆盖范围包括：

终端与编码：脚本编写、调试、环境配置
仓库任务：Bug 修复、重构、代码审查
浏览器自动化：网页导航、抓取、表单填写
智能体工具：记忆持久化、任务委派、技能管理

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%93%8A-3-performance-benchmarks

📊 3. 性能基准测试

📊 评估与性能指标

首个完成的结果：SWE-bench Verified 全 500 项，在无思考模式下评估，以支持快速的本地智能编码。

⚡ 无思考 SWE-bench 结果

此基准测试有意在思考关闭状态下运行。目标是展示该模型在作为快速本地智能体使用时的实际编码能力，而无需依赖冗长的可见推理轨迹。在 RTX 5090 上启用 MTP 后，模型运行速度约为 100 tokens/秒，使得该结果对于交互式开发工作流尤为相关。

指标	结果
SWE-bench Verified	67.0%（335 / 500 解决）
推理模式	思考关闭（无需可见 CoT）
本地吞吐量	~100 t/s（RTX 5090 + MTP）
评估构建	Q5_K_M (27B GGUF 量化)

评估设置：SWE-bench Verified 全 500，Qwopus-3.6-27B-Coder Q5_K_M GGUF，思考关闭/无思考模式。最终得分：335/500 = 67.0%。

💻 3.1 SWE-bench Verified：全 500 无思考结果

SWE-bench Verified 衡量模型能否通过编辑仓库代码并传递隐藏测试来解决真实的 GitHub 问题。在此次运行中，Qwopus-3.6-27B-Coder 以无思考模式解决了 335 个 经过验证的任务（共 500 个），优先考虑直接行动质量和本地速度，而非冗长的显式推理。

指标	结果	说明
最终得分	335/500 = 67.0%	全 SWE-bench Verified 500 项任务划分
模式	思考关闭	评估期间无长篇可见思维链
量化	Q5_K_M GGUF	本地 27B 量化部署
吞吐量	~100 tokens/秒	在 RTX 5090 上启用 MTP 时观察所得

🧩 3.2 仓库级分类

结果在诸如 scikit-learn、xarray、requests 和 Django 等实际库维护任务上最为强劲，同时在符号数学、测试基础设施、文档工具和绘图库上也表现出扎实的覆盖。

仓库	解决率
scikit-learn	27/32 (84%)
pydata/xarray	18/22 (82%)
psf/requests	6/8 (75%)
django	166/231 (72%)
sympy	48/75 (64%)
pytest	12/19 (63%)
sphinx-doc	26/44 (59%)
matplotlib	20/34 (59%)
astropy	9/22 (41%)
pylint	2/10 (20%)

⚖️ 3.3 SWE-bench Verified 参考对比

重要对比说明：以下参考得分来自外部模型报告，通常为思考启用状态或特定测试框架下。Qwopus-3.6-27B-Coder 在此显示为无思考、量化本地运行，因此此表应理解为定位背景，而非严格的同模式排行榜。

模型	思考模式	SWE-bench Verified	背景
Qwopus-3.6-27B-Coder	关闭 / 无思考	67.0	Q5_K_M, RTX 5090 + MTP, ~100 t/s
OpenAI GPT-5	开启	70.1	思考开启参考
OpenAI GPT-5 mini	开启	59.8	思考开启参考
OpenAI GPT-5 nano	开启	34.8	思考开启参考
GLM-4.7	开启	70.6	OpenHands 参考
GLM-4.5-Air	开启	57.6	OpenHands 参考
Qwen3-Coder-30B-A3B-Instruct (2025-07)	关闭 / 无思考	70.3	无思考参考
Claude 4.0 Opus	开启	67.6	思考开启参考
Claude 4.5 Opus	开启	80.9	思考开启参考
Qwen3.6-27B	开启	77.2	思考开启参考
Qwen3.5-397B-A17B	开启	76.2	思考开启参考
Qwen3.5-27B	开启	75.0	思考开启参考
Qwen3.6-35B-A3B	开启	73.4	思考开启参考
Gemma4-31B	开启	52.0	思考开启参考
Gemma4-26B-A4B	开启	17.4	思考开启参考

🎮 3.4 实时思考关闭演示：Boat Survival

Kyle Hessling 还在一个小型互动游戏环境中测试了 Qwopus-3.6-27B-Coder，并且关闭了思考功能。该演示是针对快速决策的实际冒烟测试。

Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF · Hugging Face 来源：https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

使用 Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF 的指南（适用于库、推理提供商、笔记本和本地应用）。请通过这些链接快速上手。

从 pip 安装并启动模型

使用 Docker

从 pip 安装并启动模型

使用 Docker 镜像

安装 Unsloth Studio（macOS、Linux、WSL）

安装 Unsloth Studio（Windows）

使用 HuggingFace Spaces 运行 Unsloth

使用 FastModel 加载模型

🪐 Qwopus-3.6-27B-Coder Coder SFT Release Agentic Coding & Tool-Use Reasoning Model Fine-Tuned on Qwopus3.6-27B-v2 🧬 迹反转与负熵 🧠 27B Dense Model ⚡ 智能编码 🛠️ 工具调用与智能体 🏆 SWE-bench Verified: 67.0%（无思考模式）

💡 什么是 Qwopus-3.6-27B-Coder？

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%92%A1-1-base-model-training-stack–collaboration

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%93%96-2-background–motivation

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF#%F0%9F%93%8A-3-performance-benchmarks

📊 评估与性能指标

相似文章

Jackrong/Qwopus3.6-27B-v2-MTP-GGUF

Jackrong/Qwopus3.6-27B-v2-GGUF

Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Jackrong/Qwopus-GLM-18B-Merged-GGUF

提交意见反馈