Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending 模型

摘要

阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。

任务:图像-文本到文本 标签:transformers, safetensors, qwen3_5_moe, 图像-文本到文本, 对话, base_model:Qwen/Qwen3.6-35B-A3B, base_model:quantized:Qwen/Qwen3.6-35B-A3B, 许可证:apache-2.0, 端点兼容, fp8, 区域:us, 部署:azure
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

Qwen/Qwen3.6-35B-A3B-FP8 · Hugging Face

来源: https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8

Qwen Chat (https://chat.qwen.ai/)

该存储库包含了后训练模型的FP8量化模型权重和配置文件,格式为Hugging Face Transformers格式。这些工件兼容Hugging Face Transformers、vLLM、SGLang、KTransformers等框架。量化方法采用块大小为128的细粒度fp8量化,其性能指标与原始模型几乎相同。继2月份发布Qwen3.5系列之后,我们很高兴分享Qwen3.6的首个开放权重变体。基于社区的直接反馈,Qwen3.6优先考虑稳定性和实际效用,为开发者提供更直观、响应更快且真正高效的编码体验。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#qwen36-highlightsQwen3.6 亮点

本次发布带来了重大升级,尤其是在以下方面:

  • 代理编程 (Agentic Coding):模型现在能够更流畅、更精确地处理前端工作流和仓库级别的推理。
  • 思维保留 (Thinking Preservation):我们引入了一个新选项,用于保留历史消息中的推理上下文,从而简化迭代开发并减少开销。

基准测试结果 (https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3.6/Figures/qwen3.6_35b_a3b_score.png)

更多详情,请参阅我们的博客文章 Qwen3.6-35B-A3B (https://qwen.ai/blog?id=qwen3.6-35b-a3b)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#model-overview模型概述

  • 类型: 带有视觉编码器的因果语言模型
  • 训练阶段: 预训练 & 后训练
  • 语言模型
    • 参数数量: 总计35B,激活3B
    • 隐藏维度: 2048
    • Token嵌入: 248320 (Padded)
    • 层数: 40
    • 隐藏层布局: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
      • Gated DeltaNet:
        • 线性注意力头数量: V 为32, QK 为16
        • 头维度: 128
      • Gated Attention:
        • 注意力头数量: Q 为16, KV 为2
        • 头维度: 256
        • 旋转位置嵌入维度: 64
    • 混合专家 (Mixture Of Experts)
      • 专家数量: 256
      • 激活专家数量: 8 个路由 + 1 个共享
      • 专家中间维度: 512
  • LM输出: 248320 (Padded)
  • MTP: 使用多步训练
  • 上下文长度: 原生 262,144 token,可扩展至最高 1,010,000 token。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#benchmark-results基准测试结果

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#language语言

基准测试Qwen3.5-27BGemma4-31BQwen3.5-35B-A3BGemma4-26BA4BQwen3.6-35B-A3B
编程代理
SWE-bench Verified75.052.070.017.473.4
SWE-bench Multilingual69.351.760.317.367.2
SWE-bench Pro51.235.744.613.849.5
Terminal-Bench 2.041.642.940.534.251.5
Claw-Eval Avg64.348.565.458.868.7
Claw-Eval Pass^346.225.051.028.050.0
SkillsBench Avg5.27.23.64.412.3
QwenClawBench52.241.747.738.752.6
NL2Repo27.315.520.511.629.4
QwenWebBench1068119797811781397
通用代理
TAU3-Bench68.467.568.959.067.2
VITA-Bench41.843.029.136.935.6
DeepPlanning22.624.022.816.225.9
Tool Decathlon31.521.228.712.026.9
MCPMark36.318.127.014.237.0
MCP-Atlas68.457.262.450.062.8
WideSearch66.435.259.138.360.1
知识
MMLU-Pro86.185.285.382.685.2
MMLU-Redux93.293.793.392.793.3
SuperGPQA65.665.763.461.464.7
C-Eval90.582.690.282.590.0
STEM & 推理
GPQA85.584.384.282.386.0
HLE24.319.522.48.721.4
LiveCodeBench v680.780.074.677.180.4
HMMT Feb 2592.088.789.091.790.7
HMMT Nov 2589.887.589.287.589.1
HMMT Feb 2684.377.278.779.083.6
IMOAnswerBench79.974.576.874.378.9
AIME 2692.689.291.088.392.7

* SWE-bench 系列: 内部代理脚手架 (bash + 文件编辑工具);temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公开集中一些有问题的任务,并在精炼后的基准上评估所有基线。 * Terminal-Bench 2.0: Harbor/Terminus-2 工具;3小时超时,32 CPU/48 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx;5次运行的平均值。 * SkillsBench: 通过 OpenCode 在78个任务上评估 (自包含子集,排除依赖API的任务);5次运行的平均值。 * NL2Repo: 其他模型通过 Claude Code 评估 (temp=1.0, top_p=0.95, max_turns=900)。 * QwenClawBench: 一个内部的真实用户分布 Claw 代理基准测试 (即将开源);temp=0.6, 256K ctx。 * QwenWebBench: 一个内部前端代码生成基准测试;双语 (EN/CN),7个类别 (网页设计、Web应用、游戏、SVG、数据可视化、动画和3D);自动渲染 + 多模态评估器 (代码/视觉正确性);BT/Elo 评分系统。 * TAU3-Bench: 我们使用官方用户模型 (gpt-5.2, 低推理努力) + 默认 BM25 检索。 * VITA-Bench: 子域平均分;使用 claude-4-sonnet 作为评判器,因为官方评判器 (claude-3.7-sonnet) 已不再可用。 * MCPMark: GitHub MCP v0.30.3;Playwright 响应截断至 32K tokens。 * MCP-Atlas: 公开集得分;gemini-2.5-pro 作为评判器。 * AIME 26: 我们使用完整的 AIME 2026 (I & II),其分数可能与 Qwen 3.5 注释不同。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#vision-language视觉语言

基准测试Qwen3.5-27BClaude-Sonnet-4.5Gemma4-31BGemma4-26BA4BQwen3.5-35B-A3BQwen3.6-35B-A3B
STEM 与拼图
MMMU82.379.680.478.481.481.7
MMMU-Pro75.068.476.9*73.8*75.175.3
Mathvista(mini)87.879.879.379.486.286.4
ZEROBench_sub36.226.326.026.334.134.4
通用 VQA
RealWorldQA83.770.372.372.284.185.3
MMBench-EN-DEV-v1.192.688.390.989.091.592.8
SimpleVQA56.057.652.952.258.358.9
HallusionBench70.059.967.466.167.969.8
文本识别与文档理解
OmniDocBench1.588.985.880.174.489.389.9
CharXiv(RQ)79.567.267.969.077.578.0
CC-OCR81.068.175.774.580.781.9
AI2D_TEST92.987.089.088.392.692.7
空间智能
RefCOCO(avg)90.9----89.2
ODInW34.1----42.6
EmbSpatialBench84.571.8---83.1
RefSpatialBench67.7----63.5
视频理解
VideoMME(w sub.)87.081.1---86.6
VideoMME(w/o sub.)82.875.3---82.5
VideoMMMU82.377.681.676.080.483.7
MLVU85.972.8---85.6
MVBench74.6----74.8
LVBench73.6----71.4

* 空单元格 (–) 表示分数不可用或不适用。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#quickstart快速开始

为简化集成,我们建议通过 API 使用 Qwen3.6。以下是使用 OpenAI 兼容 API 使用 Qwen3.6 的指南。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#serving-qwen36部署 Qwen3.6

Qwen3.6 可以通过流行的推理框架以 API 形式提供服务。下面,我们展示启动 Qwen3.6 模型 OpenAI 兼容 API 服务器的示例命令。

不同框架的推理效率和吞吐量差异很大。我们建议使用最新的框架版本以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景,强烈推荐使用专用服务引擎,如 SGLang、KTransformers 或 vLLM。 模型的默认上下文长度为 262,144 个 tokens。如果遇到内存不足 (OOM) 错误,请考虑减小上下文窗口。但是,由于 Qwen3.6 利用扩展上下文处理复杂任务,我们建议至少保持 128K tokens 的上下文长度,以保留其思考能力。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#sglangSGLang

SGLang (https://github.com/sgl-project/sglang) 是一个面向大型语言模型和视觉语言模型的快速服务框架。对于 Qwen3.6,推荐使用 sglang>=0.5.10,可以在新环境中使用以下命令安装:

uv pip install sglang[all]

更多详情请参阅其文档 (https://docs.sglang.ai/get_started/install.html)。

以下命令将在 http://localhost:8000/v1 创建 API 端点:

  • 标准版本:以下命令可用于在8个GPU上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
    python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3
    
  • 工具使用:要支持工具使用,可以使用以下命令。
    python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder
    
  • 多Token预测 (MTP):以下命令推荐用于 MTP:
    python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4
    

有关详细的部署指南,请参阅 SGLang Qwen3.5 Cookbook (https://lmsysorg.mintlify.app/cookbook/llm/Qwen/Qwen3.5)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#vllmvLLM

vLLM (https://github.com/vllm-project/vllm) 是一个面向 LLM 的高吞吐量、内存高效的推理和服务引擎。对于 Qwen3.6,推荐使用 vllm>=0.19.0,可以在新环境中使用以下命令安装:

uv pip install vllm --torch-backend=auto

更多详情请参阅其文档 (https://docs.vllm.ai/en/stable/getting_started/installation/index.html)。

以下命令将在 http://localhost:8000/v1 创建 API 端点:

  • 标准版本:以下命令可用于在8个GPU上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。
    vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
    
  • 工具调用:要支持工具使用,可以使用以下命令。
    vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder
    
  • 多Token预测 (MTP):以下命令推荐用于 MTP:
    vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
    
  • 纯文本模式:以下命令跳过视觉编码器和多模态分析,以释放内存用于额外的 KV 缓存:
    vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only
    

有关详细的部署指南,请参阅 vLLM Qwen3.5 Recipe (https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#ktransformersKTransformers

KTransformers (https://github.com/kvcache-ai/ktransformers) 是一个灵活的框架,用于通过 CPU-GPU 异构计算体验前沿的 LLM 推理优化。如需使用 KTransformers 运行 Qwen3.6,请参阅 KTransformers 部署指南 (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/Qwen3.5.md)。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#hugging-face-transformersHugging Face Transformers

Hugging Face Transformers 包含一个轻量级服务器,可用于快速测试和中度负载部署。Qwen3.6 需要最新的 transformers

pip install "transformers[serving]"

更多详情请参阅其文档 (https://huggingface.co/docs/transformers/main/serving)。同时请确保已安装 torchvision 和 pillow。然后,运行 transformers serve 启动一个服务器,在 http://localhost:8000/v1 提供 API 端点;如果加速器可用,它将把模型放置在加速器上:

transformers serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --continuous-batching

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#using-qwen36-via-the-chat-completions-api通过 Chat Completions API 使用 Qwen3.6

Chat completions API 可以通过标准 HTTP 请求或 OpenAI SDK 访问。这里,我们展示使用 OpenAI Python SDK 的示例。开始之前,请确保已安装,并配置好 API 密钥和 API 基础 URL,例如:

pip install -U openai

# 相应地设置以下环境变量
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

我们建议为生成任务使用以下采样参数集:

  • 思考模式 - 通用任务: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 思考模式 - 精确编程任务 (如 WebDev): temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 指令 (或非思考) 模式 - 通用任务: temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 指令 (或非思考) 模式 - 推理任务: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

请注意,不同推理框架对采样参数的支持不尽相同。

Qwen3.6 模型默认以思考模式运行,在生成最终回复之前,会以 \n...\n\n 标识生成思考内容。要禁用思考内容并获得直接回复,请参阅此处 (https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#instruct-or-non-thinking-mode) 的示例。

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#text-only-input纯文本输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B-FP8",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    },
)

print("Chat response:", chat_response)

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#image-input图像输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg"
                }
            },
            {
                "type": "text",
                "text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B-FP8",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    },
)

print("Chat response:", chat_response)

https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8#video-input视频输入

from openai import OpenAI

# 通过环境变量配置
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video_url",
                "video_url": {
                    "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4"
                }
            },
            {
                "type": "text",
                "text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?"
            }
        ]
    }
]

# 当使用 `--media-io-kwargs '{"video": {"num_frames": -1}}'` 启动 vLLM 时,
# 可以通过 `extra_body` (例如,设置 `fps`) 配置视频帧采样。
# 当前仅在 vLLM 中支持此功能。
#
# response = client.chat.completions.create(
#     model="Qwen/Qwen3.6-35B-A3B-FP8",
#     messages=messages,
#     max_tokens=81920,
#     temperature=1.0,
#     top_p=0.95,
#     presence_penalty=1.5,
#     extra_body={
#         "top_k": 20,
#     },
# )
# print("Chat response:", chat_response)

相似文章

Qwen/Qwen3.6-27B

Hugging Face Models Trending

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。

Qwen3.6-27B-GGUF 重磅发布!

Reddit r/LocalLLaMA

社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。

Qwen 3.7 Max

Reddit r/LocalLLaMA

Qwen 3.7 是一款来自中国实验室的新AI模型,令人印象深刻,讨论焦点在于其权重是否可供下载。