Qwen3.6-27B-GGUF 重磅发布!

Reddit r/LocalLLaMA 模型

摘要

社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/22 17:35

AaryanK/Qwen3.6-27B-GGUF · Hugging Face 源地址: https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b-gguf

Qwen3.6-27B-GGUF

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#description

描述
本仓库提供 GGUF 格式模型文件,对应 Qwen 的 Qwen3.6-27B
Qwen3.6-27B 是一款拥有 270 亿参数的高性能模型,采用 Hybrid Gated DeltaNet + Gated Attention 架构,具备统一的视觉-语言基础能力。原生支持最长 262,144 tokens 上下文、工具调用、多模态输入(图像/视频),并引入“思维保留(Thinking Preservation)”机制,可在历史消息中保留推理上下文,优化 Agent 编程工作流。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#evaluation-results

评测结果
基准成绩(图片

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#files–quantization

文件与量化
请查看 Files and versions 标签页获取可用文件列表。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#how-to-run-llamacpp

如何运行(llama.cpp)
重要: 本模型采用混合 Gated DeltaNet 架构,请务必使用 最新版 llama.cpp 以支持新增算子。

推荐参数:
Qwen3.6 默认处于 思考模式(Thinking Mode)

  • Temperature: 1.0(思考/推理)或 0.6(精确编程任务)
  • Top-P: 0.95
  • 上下文: -c(模型原生支持超长上下文,本地建议 32k–128k 以节省显存/内存)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#cli-example

CLI 示例

./llama-cli -m Qwen3.6-27B.Q4_K_M.gguf \
  -c 32768 \
  --temp 1.0 \
  --top-p 0.95 \
  -p "User: Write a Python script to automate frontend deployment.\nAssistant:" \
  -cnv

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#server-example

Server 示例

./llama-server -m Qwen3.6-27B.Q4_K_M.gguf \
  --port 8080 \
  --host 0.0.0.0 \
  -c 32768 \
  -ngl 99

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#original-model-card-qwenqwen36-27b

原始模型卡片:Qwen/Qwen3.6-27B

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-27b

Qwen3.6-27B

Qwen Chat

本仓库提供 Hugging Face Transformers 格式的后训练模型权重与配置文件,兼容 Transformers、vLLM、SGLang、KTransformers 等。
继 2 月发布 Qwen3.5 系列后,我们带来首个开源权重的 Qwen3.6。基于社区反馈,Qwen3.6 聚焦稳定性与实用价值,为开发者带来更直观、响应更快、真正高效的编程体验。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#qwen36-highlights

Qwen3.6 亮点
本次更新重点提升:

  • Agent 编程: 更流畅精准地处理前端工作流与仓库级推理。
  • 思维保留: 新增选项,可在历史消息中保留推理上下文,简化迭代开发,降低开销。

基准成绩
详见博客:Qwen3.6-27B

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#model-overview

模型概览

  • 类型:因果语言模型 + 视觉编码器
  • 训练阶段:预训练 + 后训练
  • 语言模型
    • 参数量:27B
    • 隐层维度:5120
    • 词表大小:248320(填充后)
    • 层数:64
    • 隐层布局:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
  • Gated DeltaNet
    • 线性注意力头:V 48 个 / QK 16 个
    • 头维度:128
  • Gated Attention
    • 注意力头:Q 24 个 / KV 4 个
    • 头维度:256
    • 旋转位置编码维度:64
  • 前馈网络
    • 中间维度:17408
  • LM 输出:248320(填充后)
  • MTP:多步训练
  • 上下文长度:原生 262,144 tokens,可扩展至 1,010,000 tokens

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#benchmark-results

基准结果

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#language

语言
(表格略,保持原格式,数值与英文一致)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vision-language

视觉-语言
(表格略,保持原格式,数值与英文一致)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#quickstart

快速开始
推荐使用 API 方式调用 Qwen3.6。下方提供 OpenAI 兼容接口示例。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#serving-qwen36

部署 Qwen3.6
可用主流推理框架启动 OpenAI 兼容服务。示例命令如下:

不同框架的推理效率与吞吐差异较大,建议使用最新版本。生产或高并发场景优先推荐 SGLang、KTransformers 或 vLLM 等专用引擎。
模型默认上下文长度 262,144 tokens,若出现 OOM,可适当减小;但为保留思考能力,建议至少保持 128K。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#sglang

SGLang
SGLang 是高效的大模型与多模态模型服务框架。建议 sglang>=0.5.10

uv pip install sglang[all]

标准版、工具调用、MTP 启动示例略(保持原代码块)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#vllm

vLLM
vLLM 是高吞吐、低显存占用的推理引擎。建议 vllm>=0.19.0

uv pip install vllm --torch-backend=auto

标准版、工具调用、MTP、纯文本模式启动示例略(保持原代码块)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#ktransformers

KTransformers
KTransformers 支持 CPU-GPU 异构推理优化,部署指南见 KTransformers 文档

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#hugging-face-transformers

Hugging Face Transformers
Transformers 自带轻量服务,适合快速测试与中等负载:

pip install "transformers[serving]"

启动命令略(保持原代码块)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#using-qwen36-via-the-chat-completions-api

通过 Chat Completions API 使用 Qwen3.6
支持标准 HTTP 或 OpenAI SDK。下方为 Python SDK 示例:

推荐采样参数:

  • 思考模式(通用):temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 思考模式(精确编程):temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 指令(非思考)模式:temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
    Qwen3.6 默认生成思考内容,以 \n...\n\n 包裹。如需直接回答,见下方示例。

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#text-only-input

纯文本输入
(Python 代码示例保持原格式)

https://huggingface.co/AaryanK/Qwen3.6-27B-GGUF#image-input

图像输入
(Python 代码示例保持原格式)

相似文章

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。

Qwen/Qwen3.6-27B

Hugging Face Models Trending

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。

Qwen/Qwen3.6-35B-A3B-FP8

Hugging Face Models Trending

阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。