unsloth/Qwen3.6-35B-A3B-MTP-GGUF
摘要
本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。
查看缓存全文
缓存时间: 2026/05/13 06:16
unsloth/Qwen3.6-35B-A3B-MTP-GGUF · Hugging Face
来源: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#read-our-how-to-run-qwen36-guide
阅读我们的 如何运行 Qwen3.6 指南!
查看 Unsloth Dynamic 2.0 GGUFs 以了解我们的量化基准。
- 新功能:MTP 投机解码,生成速度提升约 1.5-2 倍——从 MTP PR 分支构建 llama.cpp (https://github.com/ggml-org/llama.cpp/pull/22673):
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
-ngl 99 -c 8192 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 2
设置 -DGGML_CUDA=OFF 以用于 CPU/Metal。-np > 1 和 --mmproj 目前尚不支持 MTP。
- 新功能:开发者角色支持,使 Qwen3.6 能够在 Codex、OpenCode 等环境中工作!
- Qwen3.6 现在可以在 Unsloth Studio 中运行和微调。阅读我们的 指南。
- 工具调用改进:改进了嵌套对象的解析,使工具调用更易成功。
- Qwen3.6 (4-bit GGUF) 在 Unsloth Studio 中配合工具调用运行的示例:qwen3.6 in unsloth studio
Qwen Chat (https://chat.qwen.ai/)
本存储库包含采用 Hugging Face Transformers 格式的后训练模型的权重和配置文件。这些工件与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等兼容。继今年二月发布 Qwen3.5 系列之后,我们很高兴分享 Qwen3.6 的首个开源权重变体。Qwen3.6 基于社区的直接反馈构建,优先考虑稳定性和实际用途,为开发者提供更具直觉、响应更迅速且真正高效的生产性编码体验。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#qwen36-highlights
Qwen3.6 亮点
此次发布带来了显著的升级,特别是在以下方面:
- 智能体编码 (Agentic Coding): 模型现在能够更流畅、更精确地处理前端工作流程和仓库级推理。
- 思维保留 (Thinking Preservation): 我们引入了一个新选项,用于保留历史消息中的推理上下文,简化迭代开发并减少开销。
更多详情,请参阅我们的博客文章 Qwen3.6-35B-A3B。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#model-overview
模型概览
- 类型: 带有视觉编码器的因果语言模型
- 训练阶段: 预训练 & 后训练
- 语言模型
- 参数量: 总计 35B,激活 3B
- 隐藏维度: 2048
- Token 嵌入: 248320 (填充后)
- 层数: 40
- 隐藏布局: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- Gated DeltaNet:
- 线性注意力头数: V 为 32,QK 为 16
- 头维度: 128
- Gated Attention:
- 注意力头数: Q 为 16,KV 为 2
- 头维度: 256
- 旋转位置嵌入维度: 64
- 混合专家 (Mixture Of Experts)
- 专家数量: 256
- 激活专家数量: 8 路由 + 1 共享
- 专家中间维度: 512
- LM 输出: 248320 (填充后)
- MTP: 采用多步训练
- 上下文长度: 原生支持 262,144 tokens,可扩展至 1,010,000 tokens。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#benchmark-results
基准测试结果
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#language
语言
| 指标 | Qwen3.5-27B | Gemma4-31B | Qwen3.5-35BA3B | Gemma4-26BA4B | Qwen3.6-35BA3B |
|---|---|---|---|---|---|
| Coding Agent | |||||
| SWE-bench Verified | 75.0 | 52.0 | 70.0 | 17.4 | 73.4 |
| SWE-bench Multilingual | 69.3 | 51.7 | 60.3 | 17.3 | 67.2 |
| SWE-bench Pro | 51.2 | 35.7 | 44.6 | 13.8 | 49.5 |
| Terminal-Bench 2.0 | 41.6 | 42.9 | 40.5 | 34.2 | 51.5 |
| Claw-Eval Avg | 64.3 | 48.5 | 65.4 | 58.8 | 68.7 |
| Claw-Eval Pass^3 | 46.2 | 25.0 | 51.0 | 28.0 | 50.0 |
| SkillsBench Avg | 527.2 | 23.6 | 4.4 | 12.3 | 28.7 |
| QwenClawBench | 52.2 | 41.7 | 47.7 | 38.7 | 52.6 |
| NL2Repo | 27.3 | 15.5 | 20.5 | 11.6 | 29.4 |
| QwenWebBench | 1068 | 1197 | 978 | 1178 | 1397 |
| General Agent | |||||
| TAU3-Bench | 68.4 | 67.5 | 68.9 | 59.0 | 67.2 |
| VITA-Bench | 41.8 | 43.0 | 29.1 | 36.9 | 35.6 |
| DeepPlanning | 22.6 | 24.0 | 22.8 | 16.2 | 25.9 |
| Tool Decathlon | 31.5 | 21.2 | 28.7 | 12.0 | 26.9 |
| MCPMark | 36.3 | 18.1 | 27.0 | 14.2 | 37.0 |
| MCP-Atlas | 68.4 | 57.2 | 62.4 | 50.0 | 62.8 |
| WideSearch | 66.4 | 35.2 | 59.1 | 38.3 | 60.1 |
| Knowledge | |||||
| MMLU-Pro | 86.1 | 85.2 | 85.3 | 82.6 | 85.2 |
| MMLU-Redux | 93.2 | 93.7 | 93.3 | 92.7 | 93.3 |
| SuperGPQA | 65.6 | 65.7 | 63.4 | 61.4 | 64.7 |
| C-Eval | 90.5 | 82.6 | 90.2 | 82.5 | 90.0 |
| STEM & Reasoning | |||||
| GPQA | 85.5 | 84.3 | 84.2 | 82.3 | 86.0 |
| HLE | 24.3 | 19.5 | 22.4 | 8.7 | 21.4 |
| LiveCodeBench v6 | 80.7 | 80.0 | 74.6 | 77.1 | 80.4 |
| HMMT Feb 25 | 92.0 | 88.7 | 89.0 | 91.7 | 90.7 |
| HMMT Nov 25 | 89.8 | 87.5 | 89.2 | 87.5 | 89.1 |
| HMMT Feb 26 | 84.3 | 77.2 | 78.7 | 79.0 | 83.6 |
| IMOAnswerBench | 79.9 | 74.5 | 76.8 | 74.3 | 78.9 |
| AIME26 | 92.6 | 89.2 | 91.0 | 88.3 | 92.7 |
- SWE-Bench 系列:内部智能体支架(bash + file-edit 工具);temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公共集中的一些问题任务,并在改进后的基准上评估所有基线。
- Terminal-Bench 2.0:Harbor/Terminus-2 支架;3 小时超时,32 CPU/48 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx;5 次运行的平均值。
- SkillsBench:通过 OpenCode 在 78 个任务上进行评估(自包含子集,排除依赖 API 的任务);5 次运行的平均值。
- NL2Repo:其他模型通过 Claude Code 进行评估(temp=1.0, top_p=0.95, max_turns=900)。
- QwenClawBench:内部真实用户分布的 Claw 智能体基准(即将开源);temp=0.6, 256K ctx。
- QwenWebBench:内部前端代码生成基准;双语(EN/CN),7 个类别(Web 设计、Web 应用、游戏、SVG、数据可视化、动画和 3D);自动渲染 + 多模态评判(代码/视觉正确性);BT/Elo 评分系统。
- TAU3-Bench:我们使用官方用户模型(gpt-5.2, 低推理努力)+ 默认 BM25 检索。
- VITA-Bench:子域平均分;使用 claude-4-sonnet 作为评判者,因为官方评判者(claude-3.7-sonnet)已不可用。
- MCPMark:GitHub MCP v0.30.3;Playwright 响应截断为 32K tokens。
- MCP-Atlas:公共集得分;gemini-2.5-pro 评判者。
- AIME 26:我们使用完整的 AIME 2026 (I & II),分数可能与 Qwen 3.5 注释中的有所不同。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vision-language
视觉语言
| 指标 | Qwen3.5-27B | Claude-Sonnet-4.5 | Gemma4-31B | Gemma4-26BA4B | Qwen3.5-35B-A3B | Qwen3.6-35B-A3B |
|---|---|---|---|---|---|---|
| STEM and Puzzle | ||||||
| MMMU | 82.3 | 79.6 | 80.4 | 78.4 | 81.4 | 81.7 |
| MMMU-Pro | 75.0 | 68.4 | 76.9* | 73.8* | 75.1 | 75.3 |
| Mathvista (mini) | 87.8 | 79.8 | 79.3 | 79.4 | 86.2 | 86.4 |
| ZEROBench_sub | 36.2 | 26.3 | 26.0 | 26.3 | 34.1 | 34.4 |
| General VQA | ||||||
| RealWorldQA | 83.7 | 70.3 | 72.3 | 72.2 | 84.1 | 85.3 |
| MMBenchEN-DEV-v1.1 | 92.6 | 88.3 | 90.9 | 89.0 | 91.5 | 92.8 |
| SimpleVQA | 56.0 | 57.6 | 52.9 | 52.2 | 58.3 | 58.9 |
| HallusionBench | 70.0 | 59.9 | 67.4 | 66.1 | 67.9 | 69.8 |
| Text Recognition and Document Understanding | ||||||
| OmniDocBench1.5 | 88.9 | 85.8 | 80.1 | 74.4 | 89.3 | 89.9 |
| CharXiv (RQ) | 79.5 | 67.2 | 67.9 | 69.0 | 77.5 | 78.0 |
| CC-OCR | 81.0 | 68.1 | 75.7 | 74.5 | 80.7 | 81.9 |
| AI2D_TEST | 92.9 | 87.0 | 89.0 | 88.3 | 92.6 | 92.7 |
| Spatial Intelligence | ||||||
| RefCOCO (avg) | 90.9 | - | - | - | 89.2 | 92.0 |
| ODInW13 | 41.1 | - | - | - | 42.6 | 50.8 |
| EmbSpatialBench | 84.5 | 71.8 | - | - | 83.1 | 84.3 |
| RefSpatialBench | 67.7 | - | - | - | 63.5 | 64.3 |
| Video Understanding | ||||||
| VideoMME (w sub.) | 87.0 | 81.1 | - | - | 86.6 | 86.6 |
| VideoMME (w/o sub.) | 82.8 | 75.3 | - | - | 82.5 | 82.5 |
| VideoMMMU | 82.3 | 77.6 | 81.6 | 76.0 | 80.4 | 83.7 |
| MLVU | 85.9 | 72.8 | - | - | 85.6 | 86.2 |
| MVBench | 74.6 | - | - | - | 74.8 | 74.6 |
| LVBench | 73.6 | - | - | - | 71.4 | 71.4 |
- 空单元格 (-) 表示分数不可用或不适用。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#quickstart
快速开始
为了简化集成,我们建议通过 API 使用 Qwen3.6。以下是通过 OpenAI 兼容 API 使用 Qwen3.6 的指南。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#serving-qwen36
部署 Qwen3.6
Qwen3.6 可以通过流行的推理框架提供的 API 进行部署。以下展示了为 Qwen3.6 模型启动 OpenAI 兼容 API 服务器的示例命令。
不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架以确保最佳性能和兼容性。对于生产工作负载或高吞吐场景,强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用部署引擎。
该模型的默认上下文长度为 262,144 tokens。如果遇到内存溢出 (OOM) 错误,请考虑减少上下文窗口。然而,由于 Qwen3.6 利用扩展上下文处理复杂任务,我们建议保持至少 128K tokens 的上下文长度以保留思维能力。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#sglang
SGLang
SGLang 是一个用于大型语言模型和视觉语言模型的快速部署框架。对于 Qwen3.6,推荐使用 sglang>=0.5.10,可以在新环境中使用以下命令安装:
uv pip install sglang[all]
查看更多 文档。
以下将在 http://localhost:8000/v1 创建 API 端点:
- 标准版本: 以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3
- 工具使用: 为了支持工具使用,可以使用以下命令。
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder
- 多 Token 预测 (MTP): 以下命令推荐用于 MTP:
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4
详细部署指南,请参阅 SGLang Qwen3.5 Cookbook。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vllm
vLLM
vLLM 是一个用于 LLM 的高吞吐、内存高效的推理和部署引擎。对于 Qwen3.6,推荐使用 vllm>=0.19.0,可以在新环境中使用以下命令安装:
uv pip install vllm --torch-backend=auto
查看更多 文档。
以下将在 http://localhost:8000/v1 创建 API 端点:
- 标准版本: 以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
- 工具调用: 为了支持工具使用,可以使用以下命令。
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder
- 多 Token 预测 (MTP): 以下命令推荐用于 MTP:
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
- 仅文本: 以下命令跳过视觉编码器和多模态配置文件,以释放内存用于额外的 KV 缓存:
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only
详细部署指南,请参阅 vLLM Qwen3.5 Recipe。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#ktransformers
KTransformers
KTransformers 是一个灵活的框架,用于体验 CPU-GPU 异构计算的前沿 LLM 推理优化。有关如何使用 KTransformers 运行 Qwen3.6,请参阅 KTransformers 部署指南。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#hugging-face-transformers
Hugging Face Transformers
Hugging Face Transformers 包含一个 轻量级 服务器,可用于快速测试和中等负载部署。Qwen3.6 需要最新的 transformers:
pip install "transformers[serving]"
查看更多 文档。请确保还安装了 torchvision 和 pillow。然后,运行 transformers serve 以在 http://localhost:8000/v1 启动带有 API 端点的服务器;如果可用,它会将模型放置在加速器上:
transformers serve Qwen/Qwen3.6-35B-A3B --port 8000 --continuous-batching
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#using-qwen36-via-the-chat-completions-api
通过 Chat Completions API 使用 Qwen3.6
Chat completions API 可通过标准 HTTP 请求或 OpenAI SDK 访问。这里我们展示使用 OpenAI Python SDK 的示例。在开始之前,确保已安装并配置了 API 密钥和 API 基础 URL,例如:
pip install -U openai
# 根据实际情况设置以下内容
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"
我们推荐以下采样参数设置用于生成:
- 一般任务的思考模式:
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0- 精确编码任务(如 WebDev)的思考模式:
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0- 一般任务的指令(或非思考)模式:
temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0- 推理任务的指令(或非思考)模式:
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0请注意,对采样参数的支持因推理框架而异。
Qwen3.6 模型默认在思考模式下运行,在生成最终回复之前生成以
\n...\n\n为标志的思考内容。要禁用思考内容并获取直接回复,请参阅此处的 示例。
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#text-only-input
仅文本输入
from openai import OpenAI
# 通过环境变量配置
client = OpenAI()
messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.6-35B-A3B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=1.5,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#image-input
图像输入
from
相似文章
unsloth/Qwen3.6-27B-MTP-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。
havenoammo/Qwen3.6-27B-MTP-UD-GGUF
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
unsloth/Qwen3.6-27B-GGUF
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 量化版本,具备更强的智能体编程能力、工具调用功能,并支持 Unsloth Studio。
Unsloth 上的 MTP
Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。
Qwen/Qwen3.6-27B
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。