unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending 模型

摘要

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

任务:图像文本到文本 标签:transformers, gguf, unsloth, qwen, qwen3_5_moe, 图像文本到文本, base_model:Qwen/Qwen3.6-35B-A3B, base_model:quantized:Qwen/Qwen3.6-35B-A3B, license:apache-2.0, endpoints_compatible, region:us, imatrix, conversational
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:16

unsloth/Qwen3.6-35B-A3B-MTP-GGUF · Hugging Face

来源: https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#read-our-how-to-run-qwen36-guide

阅读我们的 如何运行 Qwen3.6 指南!

查看 Unsloth Dynamic 2.0 GGUFs 以了解我们的量化基准。

  • 新功能:MTP 投机解码,生成速度提升约 1.5-2 倍——从 MTP PR 分支构建 llama.cpp (https://github.com/ggml-org/llama.cpp/pull/22673):
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \
 -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
 -ngl 99 -c 8192 -fa on -np 1 \
 --spec-type mtp --spec-draft-n-max 2

设置 -DGGML_CUDA=OFF 以用于 CPU/Metal。-np > 1--mmproj 目前尚不支持 MTP。

  • 新功能:开发者角色支持,使 Qwen3.6 能够在 Codex、OpenCode 等环境中工作!
  • Qwen3.6 现在可以在 Unsloth Studio 中运行和微调。阅读我们的 指南
  • 工具调用改进:改进了嵌套对象的解析,使工具调用更易成功。
  • Qwen3.6 (4-bit GGUF) 在 Unsloth Studio 中配合工具调用运行的示例:qwen3.6 in unsloth studio

Qwen Chat (https://chat.qwen.ai/)

本存储库包含采用 Hugging Face Transformers 格式的后训练模型的权重和配置文件。这些工件与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等兼容。继今年二月发布 Qwen3.5 系列之后,我们很高兴分享 Qwen3.6 的首个开源权重变体。Qwen3.6 基于社区的直接反馈构建,优先考虑稳定性和实际用途,为开发者提供更具直觉、响应更迅速且真正高效的生产性编码体验。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#qwen36-highlights

Qwen3.6 亮点

此次发布带来了显著的升级,特别是在以下方面:

  • 智能体编码 (Agentic Coding): 模型现在能够更流畅、更精确地处理前端工作流程和仓库级推理。
  • 思维保留 (Thinking Preservation): 我们引入了一个新选项,用于保留历史消息中的推理上下文,简化迭代开发并减少开销。

基准测试结果

更多详情,请参阅我们的博客文章 Qwen3.6-35B-A3B

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#model-overview

模型概览

  • 类型: 带有视觉编码器的因果语言模型
  • 训练阶段: 预训练 & 后训练
  • 语言模型
    • 参数量: 总计 35B,激活 3B
    • 隐藏维度: 2048
    • Token 嵌入: 248320 (填充后)
    • 层数: 40
    • 隐藏布局: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
    • Gated DeltaNet:
      • 线性注意力头数: V 为 32,QK 为 16
      • 头维度: 128
    • Gated Attention:
      • 注意力头数: Q 为 16,KV 为 2
      • 头维度: 256
      • 旋转位置嵌入维度: 64
    • 混合专家 (Mixture Of Experts)
      • 专家数量: 256
      • 激活专家数量: 8 路由 + 1 共享
      • 专家中间维度: 512
    • LM 输出: 248320 (填充后)
    • MTP: 采用多步训练
  • 上下文长度: 原生支持 262,144 tokens,可扩展至 1,010,000 tokens。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#benchmark-results

基准测试结果

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#language

语言

指标Qwen3.5-27BGemma4-31BQwen3.5-35BA3BGemma4-26BA4BQwen3.6-35BA3B
Coding Agent
SWE-bench Verified75.052.070.017.473.4
SWE-bench Multilingual69.351.760.317.367.2
SWE-bench Pro51.235.744.613.849.5
Terminal-Bench 2.041.642.940.534.251.5
Claw-Eval Avg64.348.565.458.868.7
Claw-Eval Pass^346.225.051.028.050.0
SkillsBench Avg527.223.64.412.328.7
QwenClawBench52.241.747.738.752.6
NL2Repo27.315.520.511.629.4
QwenWebBench1068119797811781397
General Agent
TAU3-Bench68.467.568.959.067.2
VITA-Bench41.843.029.136.935.6
DeepPlanning22.624.022.816.225.9
Tool Decathlon31.521.228.712.026.9
MCPMark36.318.127.014.237.0
MCP-Atlas68.457.262.450.062.8
WideSearch66.435.259.138.360.1
Knowledge
MMLU-Pro86.185.285.382.685.2
MMLU-Redux93.293.793.392.793.3
SuperGPQA65.665.763.461.464.7
C-Eval90.582.690.282.590.0
STEM & Reasoning
GPQA85.584.384.282.386.0
HLE24.319.522.48.721.4
LiveCodeBench v680.780.074.677.180.4
HMMT Feb 2592.088.789.091.790.7
HMMT Nov 2589.887.589.287.589.1
HMMT Feb 2684.377.278.779.083.6
IMOAnswerBench79.974.576.874.378.9
AIME2692.689.291.088.392.7
  • SWE-Bench 系列:内部智能体支架(bash + file-edit 工具);temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公共集中的一些问题任务,并在改进后的基准上评估所有基线。
  • Terminal-Bench 2.0:Harbor/Terminus-2 支架;3 小时超时,32 CPU/48 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx;5 次运行的平均值。
  • SkillsBench:通过 OpenCode 在 78 个任务上进行评估(自包含子集,排除依赖 API 的任务);5 次运行的平均值。
  • NL2Repo:其他模型通过 Claude Code 进行评估(temp=1.0, top_p=0.95, max_turns=900)。
  • QwenClawBench:内部真实用户分布的 Claw 智能体基准(即将开源);temp=0.6, 256K ctx。
  • QwenWebBench:内部前端代码生成基准;双语(EN/CN),7 个类别(Web 设计、Web 应用、游戏、SVG、数据可视化、动画和 3D);自动渲染 + 多模态评判(代码/视觉正确性);BT/Elo 评分系统。
  • TAU3-Bench:我们使用官方用户模型(gpt-5.2, 低推理努力)+ 默认 BM25 检索。
  • VITA-Bench:子域平均分;使用 claude-4-sonnet 作为评判者,因为官方评判者(claude-3.7-sonnet)已不可用。
  • MCPMark:GitHub MCP v0.30.3;Playwright 响应截断为 32K tokens。
  • MCP-Atlas:公共集得分;gemini-2.5-pro 评判者。
  • AIME 26:我们使用完整的 AIME 2026 (I & II),分数可能与 Qwen 3.5 注释中的有所不同。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vision-language

视觉语言

指标Qwen3.5-27BClaude-Sonnet-4.5Gemma4-31BGemma4-26BA4BQwen3.5-35B-A3BQwen3.6-35B-A3B
STEM and Puzzle
MMMU82.379.680.478.481.481.7
MMMU-Pro75.068.476.9*73.8*75.175.3
Mathvista (mini)87.879.879.379.486.286.4
ZEROBench_sub36.226.326.026.334.134.4
General VQA
RealWorldQA83.770.372.372.284.185.3
MMBenchEN-DEV-v1.192.688.390.989.091.592.8
SimpleVQA56.057.652.952.258.358.9
HallusionBench70.059.967.466.167.969.8
Text Recognition and Document Understanding
OmniDocBench1.588.985.880.174.489.389.9
CharXiv (RQ)79.567.267.969.077.578.0
CC-OCR81.068.175.774.580.781.9
AI2D_TEST92.987.089.088.392.692.7
Spatial Intelligence
RefCOCO (avg)90.9---89.292.0
ODInW1341.1---42.650.8
EmbSpatialBench84.571.8--83.184.3
RefSpatialBench67.7---63.564.3
Video Understanding
VideoMME (w sub.)87.081.1--86.686.6
VideoMME (w/o sub.)82.875.3--82.582.5
VideoMMMU82.377.681.676.080.483.7
MLVU85.972.8--85.686.2
MVBench74.6---74.874.6
LVBench73.6---71.471.4
  • 空单元格 (-) 表示分数不可用或不适用。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#quickstart

快速开始

为了简化集成,我们建议通过 API 使用 Qwen3.6。以下是通过 OpenAI 兼容 API 使用 Qwen3.6 的指南。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#serving-qwen36

部署 Qwen3.6

Qwen3.6 可以通过流行的推理框架提供的 API 进行部署。以下展示了为 Qwen3.6 模型启动 OpenAI 兼容 API 服务器的示例命令。

不同框架的推理效率和吞吐量差异显著。建议使用最新版本的框架以确保最佳性能和兼容性。对于生产工作负载或高吞吐场景,强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用部署引擎。

该模型的默认上下文长度为 262,144 tokens。如果遇到内存溢出 (OOM) 错误,请考虑减少上下文窗口。然而,由于 Qwen3.6 利用扩展上下文处理复杂任务,我们建议保持至少 128K tokens 的上下文长度以保留思维能力。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#sglang

SGLang

SGLang 是一个用于大型语言模型和视觉语言模型的快速部署框架。对于 Qwen3.6,推荐使用 sglang>=0.5.10,可以在新环境中使用以下命令安装:

uv pip install sglang[all]

查看更多 文档

以下将在 http://localhost:8000/v1 创建 API 端点:

  • 标准版本: 以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3
  • 工具使用: 为了支持工具使用,可以使用以下命令。
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder
  • 多 Token 预测 (MTP): 以下命令推荐用于 MTP:
python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

详细部署指南,请参阅 SGLang Qwen3.5 Cookbook

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#vllm

vLLM

vLLM 是一个用于 LLM 的高吞吐、内存高效的推理和部署引擎。对于 Qwen3.6,推荐使用 vllm>=0.19.0,可以在新环境中使用以下命令安装:

uv pip install vllm --torch-backend=auto

查看更多 文档

以下将在 http://localhost:8000/v1 创建 API 端点:

  • 标准版本: 以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
  • 工具调用: 为了支持工具使用,可以使用以下命令。
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder
  • 多 Token 预测 (MTP): 以下命令推荐用于 MTP:
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
  • 仅文本: 以下命令跳过视觉编码器和多模态配置文件,以释放内存用于额外的 KV 缓存:
vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

详细部署指南,请参阅 vLLM Qwen3.5 Recipe

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#ktransformers

KTransformers

KTransformers 是一个灵活的框架,用于体验 CPU-GPU 异构计算的前沿 LLM 推理优化。有关如何使用 KTransformers 运行 Qwen3.6,请参阅 KTransformers 部署指南

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#hugging-face-transformers

Hugging Face Transformers

Hugging Face Transformers 包含一个 轻量级 服务器,可用于快速测试和中等负载部署。Qwen3.6 需要最新的 transformers

pip install "transformers[serving]"

查看更多 文档。请确保还安装了 torchvision 和 pillow。然后,运行 transformers serve 以在 http://localhost:8000/v1 启动带有 API 端点的服务器;如果可用,它会将模型放置在加速器上:

transformers serve Qwen/Qwen3.6-35B-A3B --port 8000 --continuous-batching

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#using-qwen36-via-the-chat-completions-api

通过 Chat Completions API 使用 Qwen3.6

Chat completions API 可通过标准 HTTP 请求或 OpenAI SDK 访问。这里我们展示使用 OpenAI Python SDK 的示例。在开始之前,确保已安装并配置了 API 密钥和 API 基础 URL,例如:

pip install -U openai
# 根据实际情况设置以下内容
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

我们推荐以下采样参数设置用于生成:

  • 一般任务的思考模式:temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 精确编码任务(如 WebDev)的思考模式:temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 一般任务的指令(或非思考)模式:temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 推理任务的指令(或非思考)模式:temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意,对采样参数的支持因推理框架而异。

Qwen3.6 模型默认在思考模式下运行,在生成最终回复之前生成以 \n...\n\n 为标志的思考内容。要禁用思考内容并获取直接回复,请参阅此处的 示例

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#text-only-input

仅文本输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    },
)

print("Chat response:", chat_response)
https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF#image-input

图像输入

from

相似文章

unsloth/Qwen3.6-27B-MTP-GGUF

Hugging Face Models Trending

Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

Hugging Face Models Trending

该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。

unsloth/Qwen3.6-27B-GGUF

Hugging Face Models Trending

Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 量化版本,具备更强的智能体编程能力、工具调用功能,并支持 Unsloth Studio。

Unsloth 上的 MTP

Reddit r/LocalLLaMA

Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。

Qwen/Qwen3.6-27B

Hugging Face Models Trending

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。