Qwen3.6-27B-GGUF 重磅发布!
摘要
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。
查看缓存全文
缓存时间: 2026/04/22 17:35
AaryanK/Qwen3.6-27B-GGUF · Hugging Face 源地址: https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b-gguf
Qwen3.6-27B-GGUF
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#description
描述
本仓库提供 GGUF 格式模型文件,对应 Qwen 的 Qwen3.6-27B。
Qwen3.6-27B 是一款拥有 270 亿参数的高性能模型,采用 Hybrid Gated DeltaNet + Gated Attention 架构,具备统一的视觉-语言基础能力。原生支持最长 262,144 tokens 上下文、工具调用、多模态输入(图像/视频),并引入“思维保留(Thinking Preservation)”机制,可在历史消息中保留推理上下文,优化 Agent 编程工作流。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#evaluation-results
评测结果
基准成绩(图片)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#files–quantization
文件与量化
请查看 Files and versions 标签页获取可用文件列表。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#how-to-run-llamacpp
如何运行(llama.cpp)
重要: 本模型采用混合 Gated DeltaNet 架构,请务必使用 最新版 llama.cpp 以支持新增算子。
推荐参数:
Qwen3.6 默认处于 思考模式(Thinking Mode)。
- Temperature:
1.0(思考/推理)或0.6(精确编程任务) - Top-P:
0.95 - 上下文:
-c(模型原生支持超长上下文,本地建议 32k–128k 以节省显存/内存)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#cli-example
CLI 示例
./llama-cli -m Qwen3.6-27B.Q4_K_M.gguf \
-c 32768 \
--temp 1.0 \
--top-p 0.95 \
-p "User: Write a Python script to automate frontend deployment.\nAssistant:" \
-cnv
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#server-example
Server 示例
./llama-server -m Qwen3.6-27B.Q4_K_M.gguf \
--port 8080 \
--host 0.0.0.0 \
-c 32768 \
-ngl 99
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#original-model-card-qwenqwen36-27b
原始模型卡片:Qwen/Qwen3.6-27B
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b
Qwen3.6-27B
本仓库提供 Hugging Face Transformers 格式的后训练模型权重与配置文件,兼容 Transformers、vLLM、SGLang、KTransformers 等。
继 2 月发布 Qwen3.5 系列后,我们带来首个开源权重的 Qwen3.6。基于社区反馈,Qwen3.6 聚焦稳定性与实用价值,为开发者带来更直观、响应更快、真正高效的编程体验。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-highlights
Qwen3.6 亮点
本次更新重点提升:
- Agent 编程: 更流畅精准地处理前端工作流与仓库级推理。
- 思维保留: 新增选项,可在历史消息中保留推理上下文,简化迭代开发,降低开销。
基准成绩
详见博客:Qwen3.6-27B
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#model-overview
模型概览
- 类型:因果语言模型 + 视觉编码器
- 训练阶段:预训练 + 后训练
- 语言模型
- 参数量:27B
- 隐层维度:5120
- 词表大小:248320(填充后)
- 层数:64
- 隐层布局:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
- Gated DeltaNet
- 线性注意力头:V 48 个 / QK 16 个
- 头维度:128
- Gated Attention
- 注意力头:Q 24 个 / KV 4 个
- 头维度:256
- 旋转位置编码维度:64
- 前馈网络
- 中间维度:17408
- LM 输出:248320(填充后)
- MTP:多步训练
- 上下文长度:原生 262,144 tokens,可扩展至 1,010,000 tokens
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#benchmark-results
基准结果
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#language
语言
(表格略,保持原格式,数值与英文一致)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vision-language
视觉-语言
(表格略,保持原格式,数值与英文一致)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#quickstart
快速开始
推荐使用 API 方式调用 Qwen3.6。下方提供 OpenAI 兼容接口示例。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#serving-qwen36
部署 Qwen3.6
可用主流推理框架启动 OpenAI 兼容服务。示例命令如下:
不同框架的推理效率与吞吐差异较大,建议使用最新版本。生产或高并发场景优先推荐 SGLang、KTransformers 或 vLLM 等专用引擎。
模型默认上下文长度 262,144 tokens,若出现 OOM,可适当减小;但为保留思考能力,建议至少保持 128K。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#sglang
SGLang
SGLang 是高效的大模型与多模态模型服务框架。建议 sglang>=0.5.10:
uv pip install sglang[all]
标准版、工具调用、MTP 启动示例略(保持原代码块)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vllm
vLLM
vLLM 是高吞吐、低显存占用的推理引擎。建议 vllm>=0.19.0:
uv pip install vllm --torch-backend=auto
标准版、工具调用、MTP、纯文本模式启动示例略(保持原代码块)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#ktransformers
KTransformers
KTransformers 支持 CPU-GPU 异构推理优化,部署指南见 KTransformers 文档。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#hugging-face-transformers
Hugging Face Transformers
Transformers 自带轻量服务,适合快速测试与中等负载:
pip install "transformers[serving]"
启动命令略(保持原代码块)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#using-qwen36-via-the-chat-completions-api
通过 Chat Completions API 使用 Qwen3.6
支持标准 HTTP 或 OpenAI SDK。下方为 Python SDK 示例:
推荐采样参数:
- 思考模式(通用):
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0- 思考模式(精确编程):
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0- 指令(非思考)模式:
temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
Qwen3.6 默认生成思考内容,以\n...\n\n包裹。如需直接回答,见下方示例。
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#text-only-input
纯文本输入
(Python 代码示例保持原格式)
https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#image-input
图像输入
(Python 代码示例保持原格式)
相似文章
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
Qwen/Qwen3.6-27B
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。
Qwen/Qwen3.6-35B-A3B
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。
@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件:
Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。