Qwen/Qwen3.6-27B
摘要
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。
任务:图像-文本到文本
标签:transformers, safetensors, qwen3_5, image-text-to-text, conversational, license:apache-2.0, eval-results, endpoints_compatible, deploy:azure, region:us
查看缓存全文
缓存时间: 2026/05/08 08:56
Qwen/Qwen3.6-27B · Hugging Face Source: https://huggingface.co/Qwen/Qwen3.6-27B Qwen Chat (https://chat.qwen.ai/) > 本仓库包含以 Hugging Face Transformers 格式发布的后训练模型的权重和配置文件。这些工件兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等框架。继 Qwen3.5 系列于二月发布之后,我们很高兴分享 Qwen3.6 的首个开放权重变体。Qwen3.6 基于社区的直接反馈构建,优先考虑稳定性和实际效用,为开发者提供更直观、响应更快且真正高效的编码体验。 ## https://huggingface.co/Qwen/Qwen3.6-27B#qwen36-highlightsQwen3.6 亮点 此次发布带来了实质性升级,特别是在 - **Agentic Coding(智能体编码):**模型现在能更流畅、更精确地处理前端工作流和仓库级推理任务。 - **思维保留(Thinking Preservation):*我们引入了一个新选项,用于保留历史消息中的推理上下文,从而简化迭代开发并减少开销。 Benchmark Results (https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3.6/Figures/qwen3.6_27b_score.png) 更多详情,请参阅我们的博客文章 Qwen3.6-27B (https://qwen.ai/blog?id=qwen3.6-27b)。 ## https://huggingface.co/Qwen/Qwen3.6-27B#model-overviewModel Overview - 类型:带有视觉编码器的因果语言模型 - 训练阶段:预训练 & 后训练 - 语言模型- 参数量:27B - 隐藏层维度:5120 - Token 嵌入:248320(填充后) - 层数:64 - 隐藏层布局:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN)) - Gated DeltaNet: - V 的线性注意力头数:48,QK 为 16 - 头维度:128 - Gated Attention: - Q 的注意力头数:24,KV 为 4 - 头维度:256 - RoPE 旋转位置嵌入维度:64 - 前馈网络: - 中间层维度:17408 - LM 输出:248320(填充后) - MTP:采用多步训练 - 上下文长度:原生支持 262,144 tokens,可扩展至 1,010,000 tokens。 ## https://huggingface.co/Qwen/Qwen3.6-27B#benchmark-resultsBenchmark Results ### https://huggingface.co/Qwen/Qwen3.6-27B#languageLanguage Qwen3.5-27BQwen3.5-397B-A17BGemma4-31BClaude 4.5 OpusQwen3.6-35B-A3BQwen3.6-27BCoding AgentSWE-bench Verified75.076.252.080.973.477.2SWE-bench Pro51.250.935.757.149.553.5SWE-bench Multilingual69.369.351.777.567.271.3Terminal-Bench 2.041.652.542.959.351.559.3SkillsBenchAvg527.230.023.645.328.748.2QwenWebBench106811861197153613971487NL2Repo27.332.215.543.229.436.2Claw-EvalAvg64.370.748.576.668.772.4Claw-EvalPass^346.248.125.059.650.060.6QwenClawBench52.251.841.752.352.653.4KnowledgeMMLU-Pro86.187.885.289.585.286.2MMLU-Redux93.294.993.795.693.393.5SuperGPQA65.670.465.770.664.766.0C-Eval90.593.082.692.290.091.4STEM & ReasoningGPQA Diamond85.588.484.387.086.087.8HLE24.328.719.530.821.424.0LiveCodeBench v680.783.680.084.880.483.9HMMT Feb 2592.094.888.792.990.793.8HMMT Nov 2589.892.787.593.389.190.7HMMT Feb 2684.387.977.285.383.684.3IMOAnswerBench79.980.974.584.078.980.8AIME2692.693.389.295.192.794.1 SWE-Bench 系列:内部智能体脚手架(bash + file-edit 工具);temp=1.0, top_p=0.95, 200K 上下文窗口。我们修正了 SWE-bench Pro 公共集中的一些问题任务,并在修正后的基准上评估所有基线模型。 * Terminal-Bench 2.0:Harbor/Terminus-2 测试平台;3小时超时,32 CPU/48 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx;5 次运行平均值。 * SkillsBench:通过 OpenCode 在 78 个任务上评估(自包含子集,排除依赖 API 的任务);5 次运行平均值。 * NL2Repo:其他模型通过 Claude Code 评估(temp=1.0, top_p=0.95, max_turns=900)。 * QwenClawBench:一个基于真实用户分布的 Claw 智能体基准;temp=0.6, 256K ctx。 * QwenWebBench:一个内部前端代码生成基准;双语(EN/CN),7 个类别(Web 设计、Web 应用、游戏、SVG、数据可视化、动画和 3D);自动渲染 + 多模态评判(代码/视觉正确性);BT/Elo 评级系统。 * AIME 26:我们使用完整的 AIME 2026(I & II),其分数可能与 Qwen 3.5 笔记中的有所不同。 ### https://huggingface.co/Qwen/Qwen3.6-27B#vision-languageVision Language Qwen3.5-27BQwen3.5-397B-A17BGemma4-31BClaude 4.5 OpusQwen3.6-35B-A3BQwen3.6-27BSTEM & PuzzleMMMU82.385.080.480.781.782.9MMMU-Pro75.079.076.970.675.375.8MathVistamini87.8–79.3–86.487.4DynaMath87.786.379.579.782.885.6VlmsAreBlind96.9–87.2–96.697.0General VQARealWorldQA83.783.972.377.085.384.1MMStar81.083.877.373.280.781.4MMBenchEN-DEV-v1.192.6–90.9–92.892.3SimpleVQA56.067.152.965.758.956.1Document UnderstandingCharXivRQ79.580.867.968.578.078.4CC-OCR81.082.075.776.981.981.2OCRBench89.4–86.1–90.089.4Spatial IntelligenceERQA60.567.557.546.861.862.5CountBench97.897.296.190.696.197.8RefCOCOavg90.992.3––92.092.5EmbSpatialBench84.5——84.384.6RefSpatialBench67.7–4.7–64.370.0Video UnderstandingVideoMME(w sub.)87.087.5–77.786.687.7VideoMMMU82.384.781.684.483.784.4MLVU85.986.7–81.786.286.6MVBench74.677.6–67.274.675.5Visual AgentV93.795.8–67.090.194.7AndroidWorld64.2—––70.3 空单元格(–)表示分数尚未可用或不适用。 ## https://huggingface.co/Qwen/Qwen3.6-27B#quickstartQuickstart 为了简化集成,我们建议通过 API 使用 Qwen3.6。以下指南展示了如何通过 OpenAI 兼容 API 使用 Qwen3.6。 ### https://huggingface.co/Qwen/Qwen3.6-27B#serving-qwen36Serving Qwen3.6 Qwen3.6 可以通过流行的推理框架通过 API 提供服务。以下展示了启动 Qwen3.6 模型的 OpenAI 兼容 API 服务器的示例命令。 > 不同框架的推理效率和吞吐量差异很大。建议使用最新版本的框架以确保最佳性能和兼容性。对于生产工作负载或高吞吐量场景,强烈推荐使用 SGLang、KTransformers 或 vLLM 等专用服务引擎。 > 该模型默认的上下文长度为 262,144 tokens。如果遇到内存溢出(OOM)错误,请考虑减少上下文窗口。但是,由于 Qwen3.6 利用扩展上下文处理复杂任务,我们建议保持至少 128K tokens 的上下文长度以保留思维推理能力。 #### https://huggingface.co/Qwen/Qwen3.6-27B#sglangSGLang SGLang (https://github.com/sgl-project/sglang) 是一个用于大型语言模型和视觉语言模型的快速服务框架。sglang>=0.5.10 推荐用于 Qwen3.6,可以在新环境中使用以下命令安装: uv pip install sglang[all] 更多详情请参阅其文档 (https://docs.sglang.ai/get_started/install.html)。 以下将在 http://localhost:8000/v1 创建 API 端点: - 标准版本:以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。 python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 - 工具使用:为了支持工具使用,可以使用以下命令。 python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --tool-call-parser qwen3_coder - 多 Token 预测(MTP):以下命令推荐用于 MTP: python -m sglang.launch_server --model-path Qwen/Qwen3.6-27B --port 8000 --tp-size 8 --mem-fraction-static 0.8 --context-length 262144 --reasoning-parser qwen3 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 详细部署指南请参阅 SGLang Qwen3.5 Cookbook (https://lmsysorg.mintlify.app/cookbook/llm/Qwen/Qwen3.5)。 #### https://huggingface.co/Qwen/Qwen3.6-27B#vllmvLLM vLLM (https://github.com/vllm-project/vllm) 是一个高吞吐量且内存高效的 LLM 推理和服务引擎。vllm>=0.19.0 推荐用于 Qwen3.6,可以在新环境中使用以下命令安装: uv pip install vllm --torch-backend=auto 更多详情请参阅其文档 (https://docs.vllm.ai/en/stable/getting_started/installation/index.html)。 以下将在 http://localhost:8000/v1 创建 API 端点: - 标准版本:以下命令可用于在 8 个 GPU 上使用张量并行创建最大上下文长度为 262,144 tokens 的 API 端点。 vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 - 工具调用:为了支持工具使用,可以使用以下命令。 vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder - 多 Token 预测(MTP):以下命令推荐用于 MTP: vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' - 纯文本:以下命令跳过视觉编码器和多模态分析,以释放内存用于额外的 KV 缓存: vllm serve Qwen/Qwen3.6-27B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3 --language-model-only 详细部署指南请参阅 vLLM Qwen3.5 Recipe (https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html)。 #### https://huggingface.co/Qwen/Qwen3.6-27B#ktransformersKTransformers KTransformers (https://github.com/kvcache-ai/ktransformers) 是一个灵活的框架,用于体验结合 CPU-GPU 异构计算的尖端 LLM 推理优化。关于如何在 KTransformers 上运行 Qwen3.6,请参阅 KTransformers 部署指南 (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/Qwen3.5.md)。 #### https://huggingface.co/Qwen/Qwen3.6-27B#hugging-face-transformersHugging Face Transformers Hugging Face Transformers 包含一个 轻量级 服务器,可用于快速测试和中度负载部署。Qwen3.6 需要最新版本的 transformers: pip install "transformers[serving]" 更多详情请参阅其文档 (https://huggingface.co/docs/transformers/main/serving)。 请确保还安装了 torchvision 和 pillow。然后,运行 transformers serve 以启动服务器,API 端点位于 http://localhost:8000/v1;如果可用,它会将模型放置在加速器上: transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching ### https://huggingface.co/Qwen/Qwen3.6-27B#using-qwen36-via-the-chat-completions-apiUsing Qwen3.6 via the Chat Completions API Chat completions API 可通过标准 HTTP 请求或 OpenAI SDK 访问。这里我们展示使用 OpenAI Python SDK 的示例。在开始之前,请确保已安装并配置了 API 密钥和 API 基础 URL,例如: pip install -U openai # Set the following accordingly export OPENAI_BASE_URL="http://localhost:8000/v1" export OPENAI_API_KEY="EMPTY" > 我们建议使用以下采样参数集进行生成 - 一般任务的思维模式:temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0 - 精确编码任务(如 WebDev)的思维模式:temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0 - 指令(或非思维)模式:temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0 请注意,对采样参数的支持因推理框架而异。 > Qwen3.6 模型默认处于思维模式,在生成最终响应之前会生成由 \n...\n\n 标识的思维内容。要禁用思维内容并获得直接响应,请参阅此处 (https://huggingface.co/Qwen/Qwen3.6-27B#instruct-or-non-thinking-mode) 的示例。 #### https://huggingface.co/Qwen/Qwen3.6-27B#text-only-inputText-Only Input from openai import OpenAI # Configured by environment variables client = OpenAI() messages = [ {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"}, ] chat_response = client.chat.completions.create( model="Qwen/Qwen3.6-27B", messages=messages, max_tokens=81920, temperature=1.0, top_p=0.95, presence_penalty=0.0, extra_body={ "top_k": 20, }, ) print("Chat response:", chat_response) #### https://huggingface.co/Qwen/Qwen3.6-27B#image-inputImage Input from openai import OpenAI # Configured by environment variables client = OpenAI() messages = [ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/CI_Demo/mathv-1327.jpg" } }, { "type": "text", "text": "The centres of the four illustrated circles are in the corners of the square. The two big circles touch each other and also the two little circles. With which factor do you have to multiply the radii of the little circles to obtain the radius of the big circles?\nChoices:\n(A) $\\frac{2}{9}$\n(B) $\\sqrt{5}$\n(C) $0.8 \\cdot \\pi$\n(D) 2.5\n(E) $1+\\sqrt{2}$" } ] } ] chat_response = client.chat.completions.create( model="Qwen/Qwen3.6-27B", messages=messages, max_tokens=81920, temperature=1.0, top_p=0.95, presence_penalty=0.0, extra_body={ "top_k": 20, }, ) print("Chat response:", chat_response) #### https://huggingface.co/Qwen/Qwen3.6-27B#video-inputVideo Input from openai import OpenAI # Configured by environment variables client = OpenAI() messages = [ { "role": "user", "content": [ { "type": "video_url", "video_url": { "url": "https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.5/demo/video/N1cdUjctpG8.mp4" } }, { "type": "text", "text": "How many porcelain jars were discovered in the niches located in the primary chamber of the tomb?" } ] } ] # When vLLM is launched with `--media-io-kwargs '{"video": {"num_frames": -1}}'`, # video frame sampling can be configured via `extra_body` (e.g., by setting `fps`). # This feature is currently supported only in vLLM. # # By default, `fps=2` and `do_sample_frames=True`. # With `do_sample_frames=True`, you can customize the `fps` value to set your desired video sampling rate. chat_response = client.chat.completions.create( model="Qwen/Qwen3.6-27B", messages=messages, max_tokens=81920, temperature=1.0, top_p=0.95, presence_penalty=0.0, extra_body={ "top_k": 20, "mm_processor_kwargs": {"fps": 2, "do_sample_frames": True}, }, ) print("Chat response:", chat_response) #### https://huggingface.co/Qwen/Qwen3.6-27B#instruct-or-non-thinking-modeInstruct (or Non-Thinking) Mode > Qwen3.6 不正式支持 Qwen3 的软切换,即 /think 和 /nothink。Qwen3.6 将在响应前默认进行思维推理。您可以通过配置 API 参数从模型获得无需思维推理的直接响应。例如, `` from openai import OpenAI # Configured by environment variables client = OpenAI() messages = [ { “role”: “user”, “content”: [ { “type”: “image_url”, “image_url”: { “url”: “https://qianwen-res.oss-accelerate.aliyuncs.com/Qwen3.6/demo/RealWorld/RealWorld-04.png” } }, { “type”: “text”, “text”: “Where is this?” } ] } ] chat_response = client.chat.completions.create( model=“Qwen/Qwen3.6-27B”, messages=messages, max_tokens=32768, temperature=0.7, top_p=0.
相似文章
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
Qwen/Qwen3.6-35B-A3B
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。
Qwen3.6-27B-GGUF 重磅发布!
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。
unsloth/Qwen3.6-35B-A3B-MTP-GGUF
本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。