Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending 2026/04/15 06:05 模型

qwen quantization fp8 open-weight moe coding

摘要

阿里巴巴发布了Qwen3.6-35B-A3B-FP8，这是Qwen3.6的开源权重量化变体，拥有35B参数，通过MoE激活3B，具有改进的智能编码能力和保持思维链的迭代开发特性。

任务：图像-文本到文本标签：transformers, safetensors, qwen3_5_moe, 图像-文本到文本, 对话, base_model:Qwen/Qwen3.6-35B-A3B, base_model:quantized:Qwen/Qwen3.6-35B-A3B, 许可证:apache-2.0, 端点兼容, fp8, 区域:us, 部署:azure

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

Qwen/Qwen3.6-35B-A3B-FP8 · Hugging Face

来源: https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8

Qwen Chat (https://chat.qwen.ai/)

该存储库包含了后训练模型的FP8量化模型权重和配置文件，格式为Hugging Face Transformers格式。这些工件兼容Hugging Face Transformers、vLLM、SGLang、KTransformers等框架。量化方法采用块大小为128的细粒度fp8量化，其性能指标与原始模型几乎相同。继2月份发布Qwen3.5系列之后，我们很高兴分享Qwen3.6的首个开放权重变体。基于社区的直接反馈，Qwen3.6优先考虑稳定性和实际效用，为开发者提供更直观、响应更快且真正高效的编码体验。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#qwen36-highlightsQwen3.6 亮点

本次发布带来了重大升级，尤其是在以下方面：

代理编程 (Agentic Coding)：模型现在能够更流畅、更精确地处理前端工作流和仓库级别的推理。
思维保留 (Thinking Preservation)：我们引入了一个新选项，用于保留历史消息中的推理上下文，从而简化迭代开发并减少开销。

基准测试结果 (https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3.6/Figures/qwen3.6_35b_a3b_score.png)

更多详情，请参阅我们的博客文章 Qwen3.6-35B-A3B (https://qwen.ai/blog?id=qwen3.6-35b-a3b)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#model-overview模型概述

类型: 带有视觉编码器的因果语言模型
训练阶段: 预训练 & 后训练
语言模型
- 参数数量: 总计35B，激活3B
- 隐藏维度: 2048
- Token嵌入: 248320 (Padded)
- 层数: 40
- 隐藏层布局: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
  - Gated DeltaNet:
    - 线性注意力头数量: V 为32, QK 为16
    - 头维度: 128
  - Gated Attention:
    - 注意力头数量: Q 为16, KV 为2
    - 头维度: 256
    - 旋转位置嵌入维度: 64
- 混合专家 (Mixture Of Experts)
  - 专家数量: 256
  - 激活专家数量: 8 个路由 + 1 个共享
  - 专家中间维度: 512
LM输出: 248320 (Padded)
MTP: 使用多步训练
上下文长度: 原生 262,144 token，可扩展至最高 1,010,000 token。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#benchmark-results基准测试结果

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#language语言

基准测试	Qwen3.5-27B	Gemma4-31B	Qwen3.5-35B-A3B	Gemma4-26BA4B	Qwen3.6-35B-A3B
编程代理
SWE-bench Verified	75.0	52.0	70.0	17.4	73.4
SWE-bench Multilingual	69.3	51.7	60.3	17.3	67.2
SWE-bench Pro	51.2	35.7	44.6	13.8	49.5
Terminal-Bench 2.0	41.6	42.9	40.5	34.2	51.5
Claw-Eval Avg	64.3	48.5	65.4	58.8	68.7
Claw-Eval Pass^3	46.2	25.0	51.0	28.0	50.0
SkillsBench Avg	5.2	7.2	3.6	4.4	12.3
QwenClawBench	52.2	41.7	47.7	38.7	52.6
NL2Repo	27.3	15.5	20.5	11.6	29.4
QwenWebBench	1068	1197	978	1178	1397
通用代理
TAU3-Bench	68.4	67.5	68.9	59.0	67.2
VITA-Bench	41.8	43.0	29.1	36.9	35.6
DeepPlanning	22.6	24.0	22.8	16.2	25.9
Tool Decathlon	31.5	21.2	28.7	12.0	26.9
MCPMark	36.3	18.1	27.0	14.2	37.0
MCP-Atlas	68.4	57.2	62.4	50.0	62.8
WideSearch	66.4	35.2	59.1	38.3	60.1
知识
MMLU-Pro	86.1	85.2	85.3	82.6	85.2
MMLU-Redux	93.2	93.7	93.3	92.7	93.3
SuperGPQA	65.6	65.7	63.4	61.4	64.7
C-Eval	90.5	82.6	90.2	82.5	90.0
STEM & 推理
GPQA	85.5	84.3	84.2	82.3	86.0
HLE	24.3	19.5	22.4	8.7	21.4
LiveCodeBench v6	80.7	80.0	74.6	77.1	80.4
HMMT Feb 25	92.0	88.7	89.0	91.7	90.7
HMMT Nov 25	89.8	87.5	89.2	87.5	89.1
HMMT Feb 26	84.3	77.2	78.7	79.0	83.6
IMOAnswerBench	79.9	74.5	76.8	74.3	78.9
AIME 26	92.6	89.2	91.0	88.3	92.7

* SWE-bench 系列: 内部代理脚手架 (bash + 文件编辑工具)；temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公开集中一些有问题的任务，并在精炼后的基准上评估所有基线。 * Terminal-Bench 2.0: Harbor/Terminus-2 工具；3小时超时，32 CPU/48 GB RAM；temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx；5次运行的平均值。 * SkillsBench: 通过 OpenCode 在78个任务上评估 (自包含子集，排除依赖API的任务)；5次运行的平均值。 * NL2Repo: 其他模型通过 Claude Code 评估 (temp=1.0, top_p=0.95, max_turns=900)。 * QwenClawBench: 一个内部的真实用户分布 Claw 代理基准测试 (即将开源)；temp=0.6, 256K ctx。 * QwenWebBench: 一个内部前端代码生成基准测试；双语 (EN/CN)，7个类别 (网页设计、Web应用、游戏、SVG、数据可视化、动画和3D)；自动渲染 + 多模态评估器 (代码/视觉正确性)；BT/Elo 评分系统。 * TAU3-Bench: 我们使用官方用户模型 (gpt-5.2, 低推理努力) + 默认 BM25 检索。 * VITA-Bench: 子域平均分；使用 claude-4-sonnet 作为评判器，因为官方评判器 (claude-3.7-sonnet) 已不再可用。 * MCPMark: GitHub MCP v0.30.3；Playwright 响应截断至 32K tokens。 * MCP-Atlas: 公开集得分；gemini-2.5-pro 作为评判器。 * AIME 26: 我们使用完整的 AIME 2026 (I & II)，其分数可能与 Qwen 3.5 注释不同。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#vision-language视觉语言

基准测试	Qwen3.5-27B	Claude-Sonnet-4.5	Gemma4-31B	Gemma4-26BA4B	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
STEM 与拼图
MMMU	82.3	79.6	80.4	78.4	81.4	81.7
MMMU-Pro	75.0	68.4	76.9*	73.8*	75.1	75.3
Mathvista(mini)	87.8	79.8	79.3	79.4	86.2	86.4
ZEROBench_sub	36.2	26.3	26.0	26.3	34.1	34.4
通用 VQA
RealWorldQA	83.7	70.3	72.3	72.2	84.1	85.3
MMBench-EN-DEV-v1.1	92.6	88.3	90.9	89.0	91.5	92.8
SimpleVQA	56.0	57.6	52.9	52.2	58.3	58.9
HallusionBench	70.0	59.9	67.4	66.1	67.9	69.8
文本识别与文档理解
OmniDocBench1.5	88.9	85.8	80.1	74.4	89.3	89.9
CharXiv(RQ)	79.5	67.2	67.9	69.0	77.5	78.0
CC-OCR	81.0	68.1	75.7	74.5	80.7	81.9
AI2D_TEST	92.9	87.0	89.0	88.3	92.6	92.7
空间智能
RefCOCO(avg)	90.9	-	-	-	-	89.2
ODInW	34.1	-	-	-	-	42.6
EmbSpatialBench	84.5	71.8	-	-	-	83.1
RefSpatialBench	67.7	-	-	-	-	63.5
视频理解
VideoMME(w sub.)	87.0	81.1	-	-	-	86.6
VideoMME(w/o sub.)	82.8	75.3	-	-	-	82.5
VideoMMMU	82.3	77.6	81.6	76.0	80.4	83.7
MLVU	85.9	72.8	-	-	-	85.6
MVBench	74.6	-	-	-	-	74.8
LVBench	73.6	-	-	-	-	71.4

* 空单元格 (–) 表示分数不可用或不适用。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#quickstart快速开始

为简化集成，我们建议通过 API 使用 Qwen3.6。以下是使用 OpenAI 兼容 API 使用 Qwen3.6 的指南。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#serving-qwen36部署 Qwen3.6

Qwen3.6 可以通过流行的推理框架以 API 形式提供服务。下面，我们展示启动 Qwen3.6 模型 OpenAI 兼容 API 服务器的示例命令。

不同框架的推理效率和吞吐量差异很大。我们建议使用最新的框架版本以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景，强烈推荐使用专用服务引擎，如 SGLang、KTransformers 或 vLLM。模型的默认上下文长度为 262,144 个 tokens。如果遇到内存不足 (OOM) 错误，请考虑减小上下文窗口。但是，由于 Qwen3.6 利用扩展上下文处理复杂任务，我们建议至少保持 128K tokens 的上下文长度，以保留其思考能力。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#sglangSGLang

SGLang (https://github.com/sgl-project/sglang) 是一个面向大型语言模型和视觉语言模型的快速服务框架。对于 Qwen3.6，推荐使用 sglang>=0.5.10，可以在新环境中使用以下命令安装：

uv pip install sglang[all]

更多详情请参阅其文档 (https://docs.sglang.ai/get_started/install.html)。

以下命令将在 http://localhost:8000/v1 创建 API 端点：

标准版本：以下命令可用于在8个GPU上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3

工具使用：要支持工具使用，可以使用以下命令。

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder

多Token预测 (MTP)：以下命令推荐用于 MTP：

python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

有关详细的部署指南，请参阅 SGLang Qwen3.5 Cookbook (https://lmsysorg.mintlify.app/cookbook/llm/Qwen/Qwen3.5)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#vllmvLLM

vLLM (https://github.com/vllm-project/vllm) 是一个面向 LLM 的高吞吐量、内存高效的推理和服务引擎。对于 Qwen3.6，推荐使用 vllm>=0.19.0，可以在新环境中使用以下命令安装：

uv pip install vllm --torch-backend=auto

更多详情请参阅其文档 (https://docs.vllm.ai/en/stable/getting_started/installation/index.html)。

以下命令将在 http://localhost:8000/v1 创建 API 端点：

标准版本：以下命令可用于在8个GPU上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
```
vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
```

工具调用：要支持工具使用，可以使用以下命令。

vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

多Token预测 (MTP)：以下命令推荐用于 MTP：

vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

纯文本模式：以下命令跳过视觉编码器和多模态分析，以释放内存用于额外的 KV 缓存：

vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only

有关详细的部署指南，请参阅 vLLM Qwen3.5 Recipe (https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#ktransformersKTransformers

KTransformers (https://github.com/kvcache-ai/ktransformers) 是一个灵活的框架，用于通过 CPU-GPU 异构计算体验前沿的 LLM 推理优化。如需使用 KTransformers 运行 Qwen3.6，请参阅 KTransformers 部署指南 (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/Qwen3.5.md)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#hugging-face-transformersHugging Face Transformers

Hugging Face Transformers 包含一个轻量级服务器，可用于快速测试和中度负载部署。Qwen3.6 需要最新的 transformers：

pip install "transformers[serving]"

更多详情请参阅其文档 (https://huggingface.co/docs/transformers/main/serving)。同时请确保已安装 torchvision 和 pillow。然后，运行 transformers serve 启动一个服务器，在 http://localhost:8000/v1 提供 API 端点；如果加速器可用，它将把模型放置在加速器上：

transformers serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --continuous-batching

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#using-qwen36-via-the-chat-completions-api通过 Chat Completions API 使用 Qwen3.6

Chat completions API 可以通过标准 HTTP 请求或 OpenAI SDK 访问。这里，我们展示使用 OpenAI Python SDK 的示例。开始之前，请确保已安装，并配置好 API 密钥和 API 基础 URL，例如：

pip install -U openai

# 相应地设置以下环境变量
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

我们建议为生成任务使用以下采样参数集：

思考模式 - 通用任务: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

思考模式 - 精确编程任务 (如 WebDev): temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

指令 (或非思考) 模式 - 通用任务: temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

指令 (或非思考) 模式 - 推理任务: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意，不同推理框架对采样参数的支持不尽相同。

Qwen3.6 模型默认以思考模式运行，在生成最终回复之前，会以 \n...\n\n 标识生成思考内容。要禁用思考内容并获得直接回复，请参阅此处 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#instruct-or-non-thinking-mode) 的示例。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#text-only-input纯文本输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B-FP8",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    },
)

print("Chat response:", chat_response)

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#image-input图像输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg"
                }
            },
            {
                "type": "text",
                "text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B-FP8",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    },
)

print("Chat response:", chat_response)

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#video-input视频输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video_url",
                "video_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
                }
            },
            {
                "type": "text",
                "text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?"
            }
        ]
    }
]

# 当使用 `--media-io-kwargs '{"video": {"num_frames": -1}}'` 启动 vLLM 时，
# 可以通过 `extra_body` (例如，设置 `fps`) 配置视频帧采样。
# 当前仅在 vLLM 中支持此功能。
#
# response = client.chat.completions.create(
#     model="Qwen/Qwen3.6-35B-A3B-FP8",
#     messages=messages,
#     max_tokens=81920,
#     temperature=1.0,
#     top_p=0.95,
#     presence_penalty=1.5,
#     extra_body={
#         "top_k": 20,
#     },
# )
# print("Chat response:", chat_response)