@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件:
摘要
Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。
查看缓存全文
缓存时间: 2026/06/17 01:43
来看看 Qwen 3.5 27B MoQ GGUFs:https://t.co/Mx0c0MRksy
kaitchup/Qwen3.6-27B-GGUF-MoQ · Hugging Face
来源:https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ 库: llama-cpp-python (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?library=llama-cpp-python) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 llama-cpp-python:
``
!pip install llama-cpp-python
from llama_cpp import Llama
llm = Llama.from_pretrained( repo_id=“kaitchup/Qwen3.6-27B-GGUF-MoQ”, filename=“MoQ-3.0.gguf”, ) ``
llm.create_chat_completion( messages = "尚未为此模型任务定义输入示例。" )
笔记本 Google Colab (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ/colab) Kaggle (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ/kaggle) 本地应用 设置 (https://huggingface.co/settings/local-apps) llama.cpp (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=llama.cpp) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 llama.cpp:
通过 brew 安装
`` brew install llama.cpp
启动一个本地 OpenAI 兼容服务器并带有 Web UI:
llama-server -hf kaitchup/Qwen3.6-27B-GGUF-MoQ
直接在终端中运行推理:
llama-cli -hf kaitchup/Qwen3.6-27B-GGUF-MoQ ``
通过 WinGet 安装(Windows)
`` winget install llama.cpp
启动一个本地 OpenAI 兼容服务器并带有 Web UI:
llama-server -hf kaitchup/Qwen3.6-27B-GGUF-MoQ
直接在终端中运行推理:
llama-cli -hf kaitchup/Qwen3.6-27B-GGUF-MoQ ``
使用预构建二进制文件
``
从以下地址下载预构建二进制文件:
https://github.com/ggerganov/llama.cpp/releases
启动一个本地 OpenAI 兼容服务器并带有 Web UI:
./llama-server -hf kaitchup/Qwen3.6-27B-GGUF-MoQ
直接在终端中运行推理:
./llama-cli -hf kaitchup/Qwen3.6-27B-GGUF-MoQ ``
从源代码构建
`` git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake –build build -j –target llama-server llama-cli
启动一个本地 OpenAI 兼容服务器并带有 Web UI:
./build/bin/llama-server -hf kaitchup/Qwen3.6-27B-GGUF-MoQ
直接在终端中运行推理:
./build/bin/llama-cli -hf kaitchup/Qwen3.6-27B-GGUF-MoQ ``
使用 Docker
docker model run hf.co/kaitchup/Qwen3.6-27B-GGUF-MoQ
LM Studio Jan Ollama (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=ollama) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 Ollama:
ollama run hf.co/kaitchup/Qwen3.6-27B-GGUF-MoQ
Unsloth Studio (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=unsloth) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 Unsloth Studio:
安装 Unsloth Studio(macOS、Linux、WSL)
`` curl -fsSL https://unsloth.ai/install.sh | sh
运行 unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
然后在浏览器中打开 http://localhost:8888
搜索 kaitchup/Qwen3.6-27B-GGUF-MoQ 开始对话
``
安装 Unsloth Studio(Windows)
`` irm https://unsloth.ai/install.ps1 | iex
运行 unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
然后在浏览器中打开 http://localhost:8888
搜索 kaitchup/Qwen3.6-27B-GGUF-MoQ 开始对话
``
使用 HuggingFace Spaces 运行 Unsloth
``
无需设置
在浏览器中打开 https://huggingface.co/spaces/unsloth/studio
搜索 kaitchup/Qwen3.6-27B-GGUF-MoQ 开始对话
``
Pi (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=pi) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 Pi:
启动 llama.cpp 服务器
``
安装 llama.cpp:
brew install llama.cpp
启动一个本地 OpenAI 兼容服务器:
llama-server -hf kaitchup/Qwen3.6-27B-GGUF-MoQ ``
在 Pi 中配置模型
``
安装 Pi:
npm install -g @mariozechner/pi-coding-agent
添加到 ~/.pi/agent/models.json:
{ “providers”: { “llama-cpp”: { “baseUrl”: “http://localhost:8080/v1”, “api”: “openai-completions”, “apiKey”: “none”, “models”: [ { “id”: “kaitchup/Qwen3.6-27B-GGUF-MoQ” } ] } } } ``
运行 Pi
``
在你的项目目录中启动 Pi:
pi ``
Hermes Agentnew (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=hermes-agent) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 Hermes Agent:
启动 llama.cpp 服务器
``
安装 llama.cpp:
brew install llama.cpp
启动一个本地 OpenAI 兼容服务器:
llama-server -hf kaitchup/Qwen3.6-27B-GGUF-MoQ ``
配置 Hermes
``
安装 Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup
将 Hermes 指向本地服务器:
hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default kaitchup/Qwen3.6-27B-GGUF-MoQ ``
运行 Hermes
hermes
Atomic Chatnew Docker Model Runner (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=docker-model-runner) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 Docker Model Runner:
docker model run hf.co/kaitchup/Qwen3.6-27B-GGUF-MoQ
Lemonade (https://huggingface.co/kaitchup/Qwen3.6-27B-GGUF-MoQ?local-app=lemonade) 如何使用 kaitchup/Qwen3.6-27B-GGUF-MoQ 配合 Lemonade:
拉取模型
``
从 https://lemonade-server.ai/ 下载 Lemonade
lemonade pull kaitchup/Qwen3.6-27B-GGUF-MoQ ``
运行并对话
lemonade run user.Qwen3.6-27B-GGUF-MoQ-{{QUANT_TAG}}
列出所有可用模型
lemonade list
相似文章
havenoammo/Qwen3.6-27B-MTP-UD-GGUF
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
Qwen/Qwen3.6-35B-A3B-FP8
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。
Qwen3.6-27B-GGUF 重磅发布!
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
unsloth/Qwen3.6-35B-A3B-MTP-GGUF
本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。