Qwen3.6-27B-GGUF 重磅发布！

Reddit r/LocalLLaMA 2026/04/22 14:18 模型

摘要

社区 GGUF 版本上线，Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用，并保留“思考过程”，专为智能体编程而生。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/22 17:35

AaryanK/Qwen3.6-27B-GGUF · Hugging Face 源地址: https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b-gguf

Qwen3.6-27B-GGUF

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#description

描述
本仓库提供 GGUF 格式模型文件，对应 Qwen 的 Qwen3.6-27B。
Qwen3.6-27B 是一款拥有 270 亿参数的高性能模型，采用 Hybrid Gated DeltaNet + Gated Attention 架构，具备统一的视觉-语言基础能力。原生支持最长 262,144 tokens 上下文、工具调用、多模态输入（图像/视频），并引入“思维保留（Thinking Preservation）”机制，可在历史消息中保留推理上下文，优化 Agent 编程工作流。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#evaluation-results

评测结果
基准成绩（图片）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#files–quantization

文件与量化
请查看 Files and versions 标签页获取可用文件列表。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#how-to-run-llamacpp

如何运行（llama.cpp）
重要： 本模型采用混合 Gated DeltaNet 架构，请务必使用 最新版 llama.cpp 以支持新增算子。

推荐参数：
Qwen3.6 默认处于 思考模式（Thinking Mode）。

Temperature: 1.0（思考/推理）或 0.6（精确编程任务）
Top-P: 0.95
上下文: -c（模型原生支持超长上下文，本地建议 32k–128k 以节省显存/内存）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#cli-example

CLI 示例

./llama-cli -m Qwen3.6-27B.Q4_K_M.gguf \
  -c 32768 \
  --temp 1.0 \
  --top-p 0.95 \
  -p "User: Write a Python script to automate frontend deployment.\nAssistant:" \
  -cnv

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#server-example

Server 示例

./llama-server -m Qwen3.6-27B.Q4_K_M.gguf \
  --port 8080 \
  --host 0.0.0.0 \
  -c 32768 \
  -ngl 99

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#original-model-card-qwenqwen36-27b

原始模型卡片：Qwen/Qwen3.6-27B

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b

Qwen3.6-27B

Qwen Chat

本仓库提供 Hugging Face Transformers 格式的后训练模型权重与配置文件，兼容 Transformers、vLLM、SGLang、KTransformers 等。
继 2 月发布 Qwen3.5 系列后，我们带来首个开源权重的 Qwen3.6。基于社区反馈，Qwen3.6 聚焦稳定性与实用价值，为开发者带来更直观、响应更快、真正高效的编程体验。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-highlights

Qwen3.6 亮点
本次更新重点提升：

Agent 编程： 更流畅精准地处理前端工作流与仓库级推理。
思维保留： 新增选项，可在历史消息中保留推理上下文，简化迭代开发，降低开销。

基准成绩
详见博客：Qwen3.6-27B

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#model-overview

模型概览

类型：因果语言模型 + 视觉编码器
训练阶段：预训练 + 后训练
语言模型
- 参数量：27B
- 隐层维度：5120
- 词表大小：248320（填充后）
- 层数：64
- 隐层布局：16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
Gated DeltaNet
- 线性注意力头：V 48 个 / QK 16 个
- 头维度：128
Gated Attention
- 注意力头：Q 24 个 / KV 4 个
- 头维度：256
- 旋转位置编码维度：64
前馈网络
- 中间维度：17408
LM 输出：248320（填充后）
MTP：多步训练
上下文长度：原生 262,144 tokens，可扩展至 1,010,000 tokens

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#benchmark-results

基准结果

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#language

语言
（表格略，保持原格式，数值与英文一致）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vision-language

视觉-语言
（表格略，保持原格式，数值与英文一致）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#quickstart

快速开始
推荐使用 API 方式调用 Qwen3.6。下方提供 OpenAI 兼容接口示例。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#serving-qwen36

部署 Qwen3.6
可用主流推理框架启动 OpenAI 兼容服务。示例命令如下：

不同框架的推理效率与吞吐差异较大，建议使用最新版本。生产或高并发场景优先推荐 SGLang、KTransformers 或 vLLM 等专用引擎。
模型默认上下文长度 262,144 tokens，若出现 OOM，可适当减小；但为保留思考能力，建议至少保持 128K。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#sglang

SGLang
SGLang 是高效的大模型与多模态模型服务框架。建议 sglang>=0.5.10：

uv pip install sglang[all]

标准版、工具调用、MTP 启动示例略（保持原代码块）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vllm

vLLM
vLLM 是高吞吐、低显存占用的推理引擎。建议 vllm>=0.19.0：

uv pip install vllm --torch-backend=auto

标准版、工具调用、MTP、纯文本模式启动示例略（保持原代码块）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#ktransformers

KTransformers
KTransformers 支持 CPU-GPU 异构推理优化，部署指南见 KTransformers 文档。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#hugging-face-transformers

Hugging Face Transformers
Transformers 自带轻量服务，适合快速测试与中等负载：

pip install "transformers[serving]"

启动命令略（保持原代码块）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#using-qwen36-via-the-chat-completions-api

通过 Chat Completions API 使用 Qwen3.6
支持标准 HTTP 或 OpenAI SDK。下方为 Python SDK 示例：

推荐采样参数：

思考模式（通用）：temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

思考模式（精确编程）：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

指令（非思考）模式：temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
Qwen3.6 默认生成思考内容，以 \n...\n\n 包裹。如需直接回答，见下方示例。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#text-only-input

纯文本输入
（Python 代码示例保持原格式）

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#image-input

图像输入
（Python 代码示例保持原格式）

相似文章

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8，一款 27B 参数的 FP8 量化模型，在代理式编码与推理基准上表现强劲，现已上架 Hugging Face。

Qwen/Qwen3.6-27B

Hugging Face Models Trending

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B，该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性，有助于提升开发者的工作效率。

Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending

阿里巴巴发布了Qwen3.6-35B-A3B-FP8，这是Qwen3.6的开源权重量化变体，拥有35B参数，通过MoE激活3B，具有改进的智能编码能力和保持思维链的迭代开发特性。

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B，一款开源权重的混合专家（MoE）模型，总参数量 35B，激活参数量 3B，在智能体编码和推理能力保持方面实现显著提升。

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件：

X AI KOLs Following

Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重，支持使用 llama.cpp 和 Ollama 等工具进行本地推理。

AaryanK/Qwen3.6-27B-GGUF · Hugging Face 源地址: https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b-gguf

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#description

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#evaluation-results

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#files–quantization

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#how-to-run-llamacpp

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#cli-example

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#server-example

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#original-model-card-qwenqwen36-27b

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-highlights

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#model-overview

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#benchmark-results

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#language

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vision-language

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#quickstart

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#serving-qwen36

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#sglang

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vllm

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#ktransformers

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#hugging-face-transformers

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#using-qwen36-via-the-chat-completions-api

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#text-only-input

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#image-input

相似文章

Qwen/Qwen3.6-27B-FP8

Qwen/Qwen3.6-27B

Qwen/Qwen3.6-35B-A3B-FP8

Qwen/Qwen3.6-35B-A3B

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件：

提交意见反馈