unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending 2026/05/11 12:57 模型

qwen3.6 unsloth gguf multi-token-prediction open-weight speculative-decoding agentic-coding

摘要

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重，该模型由 Unsloth 进行优化，并采用多令牌预测（MTP）技术，以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

任务：图像文本到文本标签：transformers, gguf, unsloth, qwen, qwen3_5_moe, 图像文本到文本, base_model:Qwen/Qwen3.6-35B-A3B, base_model:quantized:Qwen/Qwen3.6-35B-A3B, license:apache-2.0, endpoints_compatible, region:us, imatrix, conversational

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:16

unsloth/Qwen3.6-35B-A3B-MTP-GGUF · Hugging Face

来源: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#read-our-how-to-run-qwen36-guide

阅读我们的如何运行 Qwen3.6 指南!

查看 Unsloth Dynamic 2.0 GGUFs 以了解我们的量化基准。

新功能：MTP 投机解码，生成速度提升约 1.5-2 倍——从 MTP PR 分支构建 llama.cpp (https://github.com/ggml-org/llama.cpp/pull/22673):

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \
 -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
 -ngl 99 -c 8192 -fa on -np 1 \
 --spec-type mtp --spec-draft-n-max 2

设置 -DGGML_CUDA=OFF 以用于 CPU/Metal。-np > 1 和 --mmproj 目前尚不支持 MTP。

新功能：开发者角色支持，使 Qwen3.6 能够在 Codex、OpenCode 等环境中工作！
Qwen3.6 现在可以在 Unsloth Studio 中运行和微调。阅读我们的指南。
工具调用改进：改进了嵌套对象的解析，使工具调用更易成功。
Qwen3.6 (4-bit GGUF) 在 Unsloth Studio 中配合工具调用运行的示例：qwen3.6 in unsloth studio

Qwen Chat (https://chat.qwen.ai/)

本存储库包含采用 Hugging Face Transformers 格式的后训练模型的权重和配置文件。这些工件与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等兼容。继今年二月发布 Qwen3.5 系列之后，我们很高兴分享 Qwen3.6 的首个开源权重变体。Qwen3.6 基于社区的直接反馈构建，优先考虑稳定性和实际用途，为开发者提供更具直觉、响应更迅速且真正高效的生产性编码体验。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#qwen36-highlights

Qwen3.6 亮点

此次发布带来了显著的升级，特别是在以下方面：

智能体编码 (Agentic Coding)： 模型现在能够更流畅、更精确地处理前端工作流程和仓库级推理。
思维保留 (Thinking Preservation)： 我们引入了一个新选项，用于保留历史消息中的推理上下文，简化迭代开发并减少开销。

基准测试结果

更多详情，请参阅我们的博客文章 Qwen3.6-35B-A3B。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#model-overview

模型概览

类型： 带有视觉编码器的因果语言模型
训练阶段： 预训练 & 后训练
语言模型
- 参数量： 总计 35B，激活 3B
- 隐藏维度： 2048
- Token 嵌入： 248320 (填充后)
- 层数： 40
- 隐藏布局： 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
- Gated DeltaNet:
  - 线性注意力头数： V 为 32，QK 为 16
  - 头维度： 128
- Gated Attention:
  - 注意力头数： Q 为 16，KV 为 2
  - 头维度： 256
  - 旋转位置嵌入维度： 64
- 混合专家 (Mixture Of Experts)
  - 专家数量： 256
  - 激活专家数量： 8 路由 + 1 共享
  - 专家中间维度： 512
- LM 输出： 248320 (填充后)
- MTP： 采用多步训练
上下文长度： 原生支持 262,144 tokens，可扩展至 1,010,000 tokens。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#benchmark-results

基准测试结果

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#language

语言

指标	Qwen3.5-27B	Gemma4-31B	Qwen3.5-35BA3B	Gemma4-26BA4B	Qwen3.6-35BA3B
Coding Agent
SWE-bench Verified	75.0	52.0	70.0	17.4	73.4
SWE-bench Multilingual	69.3	51.7	60.3	17.3	67.2
SWE-bench Pro	51.2	35.7	44.6	13.8	49.5
Terminal-Bench 2.0	41.6	42.9	40.5	34.2	51.5
Claw-Eval Avg	64.3	48.5	65.4	58.8	68.7
Claw-Eval Pass^3	46.2	25.0	51.0	28.0	50.0
SkillsBench Avg	527.2	23.6	4.4	12.3	28.7
QwenClawBench	52.2	41.7	47.7	38.7	52.6
NL2Repo	27.3	15.5	20.5	11.6	29.4
QwenWebBench	1068	1197	978	1178	1397
General Agent
TAU3-Bench	68.4	67.5	68.9	59.0	67.2
VITA-Bench	41.8	43.0	29.1	36.9	35.6
DeepPlanning	22.6	24.0	22.8	16.2	25.9
Tool Decathlon	31.5	21.2	28.7	12.0	26.9
MCPMark	36.3	18.1	27.0	14.2	37.0
MCP-Atlas	68.4	57.2	62.4	50.0	62.8
WideSearch	66.4	35.2	59.1	38.3	60.1
Knowledge
MMLU-Pro	86.1	85.2	85.3	82.6	85.2
MMLU-Redux	93.2	93.7	93.3	92.7	93.3
SuperGPQA	65.6	65.7	63.4	61.4	64.7
C-Eval	90.5	82.6	90.2	82.5	90.0
STEM & Reasoning
GPQA	85.5	84.3	84.2	82.3	86.0
HLE	24.3	19.5	22.4	8.7	21.4
LiveCodeBench v6	80.7	80.0	74.6	77.1	80.4
HMMT Feb 25	92.0	88.7	89.0	91.7	90.7
HMMT Nov 25	89.8	87.5	89.2	87.5	89.1
HMMT Feb 26	84.3	77.2	78.7	79.0	83.6
IMOAnswerBench	79.9	74.5	76.8	74.3	78.9
AIME26	92.6	89.2	91.0	88.3	92.7

SWE-Bench 系列：内部智能体支架（bash + file-edit 工具）；temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公共集中的一些问题任务，并在改进后的基准上评估所有基线。
Terminal-Bench 2.0：Harbor/Terminus-2 支架；3 小时超时，32 CPU/48 GB RAM；temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx；5 次运行的平均值。
SkillsBench：通过 OpenCode 在 78 个任务上进行评估（自包含子集，排除依赖 API 的任务）；5 次运行的平均值。
NL2Repo：其他模型通过 Claude Code 进行评估（temp=1.0, top_p=0.95, max_turns=900）。
QwenClawBench：内部真实用户分布的 Claw 智能体基准（即将开源）；temp=0.6, 256K ctx。
QwenWebBench：内部前端代码生成基准；双语（EN/CN），7 个类别（Web 设计、Web 应用、游戏、SVG、数据可视化、动画和 3D）；自动渲染 + 多模态评判（代码/视觉正确性）；BT/Elo 评分系统。
TAU3-Bench：我们使用官方用户模型（gpt-5.2, 低推理努力）+ 默认 BM25 检索。
VITA-Bench：子域平均分；使用 claude-4-sonnet 作为评判者，因为官方评判者（claude-3.7-sonnet）已不可用。
MCPMark：GitHub MCP v0.30.3；Playwright 响应截断为 32K tokens。
MCP-Atlas：公共集得分；gemini-2.5-pro 评判者。
AIME 26：我们使用完整的 AIME 2026 (I & II)，分数可能与 Qwen 3.5 注释中的有所不同。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vision-language

视觉语言

指标	Qwen3.5-27B	Claude-Sonnet-4.5	Gemma4-31B	Gemma4-26BA4B	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
STEM and Puzzle
MMMU	82.3	79.6	80.4	78.4	81.4	81.7
MMMU-Pro	75.0	68.4	76.9*	73.8*	75.1	75.3
Mathvista (mini)	87.8	79.8	79.3	79.4	86.2	86.4
ZEROBench_sub	36.2	26.3	26.0	26.3	34.1	34.4
General VQA
RealWorldQA	83.7	70.3	72.3	72.2	84.1	85.3
MMBenchEN-DEV-v1.1	92.6	88.3	90.9	89.0	91.5	92.8
SimpleVQA	56.0	57.6	52.9	52.2	58.3	58.9
HallusionBench	70.0	59.9	67.4	66.1	67.9	69.8
Text Recognition and Document Understanding
OmniDocBench1.5	88.9	85.8	80.1	74.4	89.3	89.9
CharXiv (RQ)	79.5	67.2	67.9	69.0	77.5	78.0
CC-OCR	81.0	68.1	75.7	74.5	80.7	81.9
AI2D_TEST	92.9	87.0	89.0	88.3	92.6	92.7
Spatial Intelligence
RefCOCO (avg)	90.9	-	-	-	89.2	92.0
ODInW13	41.1	-	-	-	42.6	50.8
EmbSpatialBench	84.5	71.8	-	-	83.1	84.3
RefSpatialBench	67.7	-	-	-	63.5	64.3
Video Understanding
VideoMME (w sub.)	87.0	81.1	-	-	86.6	86.6
VideoMME (w/o sub.)	82.8	75.3	-	-	82.5	82.5
VideoMMMU	82.3	77.6	81.6	76.0	80.4	83.7
MLVU	85.9	72.8	-	-	85.6	86.2
MVBench	74.6	-	-	-	74.8	74.6
LVBench	73.6	-	-	-	71.4	71.4

空单元格 (-) 表示分数不可用或不适用。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#quickstart

快速开始

为了简化集成，我们建议通过 API 使用 Qwen3.6。以下是通过 OpenAI 兼容 API 使用 Qwen3.6 的指南。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#serving-qwen36

部署 Qwen3.6

Qwen3.6 可以通过流行的推理框架提供的 API 进行部署。以下展示了为 Qwen3.6 模型启动 OpenAI 兼容 API 服务器的示例命令。

不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架以确保最佳性能和兼容性。对于生产工作负载或高吞吐场景，强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用部署引擎。

该模型的默认上下文长度为 262,144 tokens。如果遇到内存溢出 (OOM) 错误，请考虑减少上下文窗口。然而，由于 Qwen3.6 利用扩展上下文处理复杂任务，我们建议保持至少 128K tokens 的上下文长度以保留思维能力。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#sglang

SGLang

SGLang 是一个用于大型语言模型和视觉语言模型的快速部署框架。对于 Qwen3.6，推荐使用 sglang>=0.5.10，可以在新环境中使用以下命令安装：

uv pip install sglang[all]

查看更多文档。

以下将在 http://localhost:8000/v1 创建 API 端点：

标准版本： 以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具使用： 为了支持工具使用，可以使用以下命令。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder

多 Token 预测 (MTP)： 以下命令推荐用于 MTP：

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

详细部署指南，请参阅 SGLang Qwen3.5 Cookbook。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vllm

vLLM

vLLM 是一个用于 LLM 的高吞吐、内存高效的推理和部署引擎。对于 Qwen3.6，推荐使用 vllm>=0.19.0，可以在新环境中使用以下命令安装：

uv pip install vllm --torch-backend=auto

查看更多文档。

以下将在 http://localhost:8000/v1 创建 API 端点：

标准版本： 以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

工具调用： 为了支持工具使用，可以使用以下命令。

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多 Token 预测 (MTP)： 以下命令推荐用于 MTP：

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

仅文本： 以下命令跳过视觉编码器和多模态配置文件，以释放内存用于额外的 KV 缓存：

vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

详细部署指南，请参阅 vLLM Qwen3.5 Recipe。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#ktransformers

KTransformers

KTransformers 是一个灵活的框架，用于体验 CPU-GPU 异构计算的前沿 LLM 推理优化。有关如何使用 KTransformers 运行 Qwen3.6，请参阅 KTransformers 部署指南。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#hugging-face-transformers

Hugging Face Transformers

Hugging Face Transformers 包含一个 轻量级 服务器，可用于快速测试和中等负载部署。Qwen3.6 需要最新的 transformers：

pip install "transformers[serving]"

查看更多文档。请确保还安装了 torchvision 和 pillow。然后，运行 transformers serve 以在 http://localhost:8000/v1 启动带有 API 端点的服务器；如果可用，它会将模型放置在加速器上：

transformers serve Qwen/Qwen3.6-35B-A3B --port 8000 --continuous-batching

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#using-qwen36-via-the-chat-completions-api

通过 Chat Completions API 使用 Qwen3.6

Chat completions API 可通过标准 HTTP 请求或 OpenAI SDK 访问。这里我们展示使用 OpenAI Python SDK 的示例。在开始之前，确保已安装并配置了 API 密钥和 API 基础 URL，例如：

pip install -U openai
# 根据实际情况设置以下内容
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

我们推荐以下采样参数设置用于生成：

一般任务的思考模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

精确编码任务（如 WebDev）的思考模式：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

一般任务的指令（或非思考）模式：temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

推理任务的指令（或非思考）模式：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意，对采样参数的支持因推理框架而异。

Qwen3.6 模型默认在思考模式下运行，在生成最终回复之前生成以 \n...\n\n 为标志的思考内容。要禁用思考内容并获取直接回复，请参阅此处的示例。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#text-only-input

仅文本输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    },
)

print("Chat response:", chat_response)

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#image-input

图像输入

from

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

unsloth/Qwen3.6-35B-A3B-MTP-GGUF · Hugging Face

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#read-our-how-to-run-qwen36-guide

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#qwen36-highlights

Qwen3.6 亮点

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#model-overview

模型概览

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#benchmark-results

基准测试结果

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#language

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vision-language

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#quickstart

快速开始

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#serving-qwen36

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#sglang

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vllm

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#ktransformers

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#hugging-face-transformers

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#using-qwen36-via-the-chat-completions-api

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#text-only-input

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#image-input

相似文章

unsloth/Qwen3.6-27B-MTP-GGUF

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

unsloth/Qwen3.6-27B-GGUF

Unsloth 上的 MTP

Qwen/Qwen3.6-27B

提交意见反馈