@coffeecup2020: TurboQuant - Qwopus3.6-27B-v2-TQ3_4S.gguf 通过gpqa测试确认，这非常棒。https://huggingface.co/YTan…

X AI KOLs Timeline 2026/05/23 09:26 模型

quantized gguf qwopus open-source llama-cpp huggingface

摘要

TurboQuant 是 Qwopus3.6-27B-v2 模型的 GGUF 量化版本，经 GPQA 测试结果确认，并在 Hugging Face 上分享，感谢 Jackrong 和 KyleHessling。

TurboQuant - Qwopus3.6-27B-v2-TQ3_4S.gguf 经 gpqa 测试确认，这非常棒。 https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?v… 尽管没有捐款，但在 HF 上点赞并感谢 Jackrong 和 @KyleHessling 就很好了。我只是做了最少的工作。这些家伙付出了辛勤劳动免费制作了它。

查看原文

查看缓存全文

缓存时间: 2026/05/24 08:27

TurboQuant - Qwopus3.6-27B-v2-TQ3_4S.gguf
经 gpqa 测试确认，这款模型表现出色。

https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?v…

虽然零捐赠，但在 Hugging Face 上点个赞，并注明 Jackrong 和 @KyleHessling 的贡献就非常棒了。我只是做了最少的工作，是这些人通过辛勤劳动免费制作了这一切！

YTan2000/Qwopus3.6-27B-v2-TQ3_4S · Hugging Face

来源：https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?v
库：llama-cpp-python (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?library=llama-cpp-python)
如何使用 llama-cpp-python 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

!pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained( repo_id=“YTan2000/Qwopus3.6-27B-v2-TQ3_4S”, filename=“Qwopus3.6-27B-v2-TQ3_4S.gguf”, ) ``

llm.create_chat_completion( messages = [ { "role": "user", "content": [ { "type": "text", "text": "用一句话描述这张图片。" }, { "type": "image_url", "image_url": { "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg" } } ] } ] )

Notebooks
Google Colab (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S/colab)
Kaggle (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S/kaggle)
本地应用
https://huggingface.co/settings/local-apps#local-apps
llama.cpp (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=llama.cpp)
如何使用 llama.cpp 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

通过 Homebrew 安装

`` brew install llama.cpp

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

llama-server -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S

在终端中直接运行推理：

llama-cli -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

通过 WinGet 安装（Windows）

`` winget install llama.cpp

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

llama-server -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S

在终端中直接运行推理：

llama-cli -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

使用预编译二进制文件

从以下地址下载预编译二进制文件：

https://github.com/ggerganov/llama.cpp/releases

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

./llama-server -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S

在终端中直接运行推理：

./llama-cli -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

从源代码编译

`` git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake –build build -j –target llama-server llama-cli

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

./build/bin/llama-server -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S

在终端中直接运行推理：

./build/bin/llama-cli -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

使用 Docker

docker model run hf.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S

LM Studio
Jan
vLLM (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=vllm)
如何使用 vLLM 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

通过 pip 安装并启动服务

通过 pip 安装 vLLM：

pip install vllm

启动 vLLM 服务器：

vllm serve “YTan2000/Qwopus3.6-27B-v2-TQ3_4S”

使用 curl 调用服务器（OpenAI 兼容 API）：

curl -X POST “http://localhost:8000/v1/chat/completions”
-H “Content-Type: application/json”
–data ‘{ “model”: “YTan2000/Qwopus3.6-27B-v2-TQ3_4S”, “messages”: [ { “role”: “user”, “content”: [ { “type”: “text”, “text”: “用一句话描述这张图片。” }, { “type”: “image_url”, “image_url”: { “url”: “https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg” } } ] } ] }’ ``

使用 Docker

docker model run hf.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S

Ollama (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=ollama)
如何使用 Ollama 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

ollama run hf.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S

Unsloth Studio 新 (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=unsloth)
如何使用 Unsloth Studio 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

安装 Unsloth Studio（macOS、Linux、WSL）

`` curl -fsSL https://unsloth.ai/install.sh | sh

运行 Unsloth Studio

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开 http://localhost:8888

搜索 YTan2000/Qwopus3.6-27B-v2-TQ3_4S 开始聊天

安装 Unsloth Studio（Windows）

`` irm https://unsloth.ai/install.ps1 | iex

运行 Unsloth Studio

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开 http://localhost:8888

搜索 YTan2000/Qwopus3.6-27B-v2-TQ3_4S 开始聊天

使用 HuggingFace Spaces 运行 Unsloth

无需安装

在浏览器中打开 https://huggingface.co/spaces/unsloth/studio

搜索 YTan2000/Qwopus3.6-27B-v2-TQ3_4S 开始聊天

Pi 新 (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=pi)
如何使用 Pi 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

启动 llama.cpp 服务器

安装 llama.cpp：

brew install llama.cpp

启动本地 OpenAI 兼容的服务器：

llama-server -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

在 Pi 中配置模型

安装 Pi：

npm install -g @mariozechner/pi-coding-agent

添加至 ~/.pi/agent/models.json：

{ “providers”: { “llama-cpp”: { “baseUrl”: “http://localhost:8080/v1”, “api”: “openai-completions”, “apiKey”: “none”, “models”: [ { “id”: “YTan2000/Qwopus3.6-27B-v2-TQ3_4S” } ] } } } ``

运行 Pi

在项目目录中启动 Pi：

pi ``

Hermes Agent 新 (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=hermes-agent)
如何使用 Hermes Agent 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

启动 llama.cpp 服务器

安装 llama.cpp：

brew install llama.cpp

启动本地 OpenAI 兼容的服务器：

llama-server -hf YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

配置 Hermes

安装 Hermes：

curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup

将 Hermes 指向本地服务器：

hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

运行 Hermes

hermes

Docker Model Runner (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=docker-model-runner)
如何使用 Docker Model Runner 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

docker model run hf.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S

Lemonade (https://huggingface.co/YTan2000/Qwopus3.6-27B-v2-TQ3_4S?local-app=lemonade)
如何使用 Lemonade 使用 YTan2000/Qwopus3.6-27B-v2-TQ3_4S：

拉取模型

从 https://lemonade-server.ai/ 下载 Lemonade

lemonade pull YTan2000/Qwopus3.6-27B-v2-TQ3_4S ``

运行并与模型聊天

lemonade run user.Qwopus3.6-27B-v2-TQ3_4S-{{QUANT_TAG}}

列出所有可用模型

lemonade list

YTan2000/Qwopus3.6-27B-v2-TQ3_4S · Hugging Face

!pip install llama-cpp-python

通过 Homebrew 安装

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

在终端中直接运行推理：

通过 WinGet 安装（Windows）

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

在终端中直接运行推理：

使用预编译二进制文件

从以下地址下载预编译二进制文件：

https://github.com/ggerganov/llama.cpp/releases

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

在终端中直接运行推理：

从源代码编译

启动本地 OpenAI 兼容的服务器（带 Web 界面）：

在终端中直接运行推理：

使用 Docker

通过 pip 安装并启动服务

通过 pip 安装 vLLM：

启动 vLLM 服务器：

使用 curl 调用服务器（OpenAI 兼容 API）：

使用 Docker

安装 Unsloth Studio（macOS、Linux、WSL）

运行 Unsloth Studio

然后在浏览器中打开 http://localhost:8888

搜索 YTan2000/Qwopus3.6-27B-v2-TQ3_4S 开始聊天

安装 Unsloth Studio（Windows）

运行 Unsloth Studio

然后在浏览器中打开 http://localhost:8888

搜索 YTan2000/Qwopus3.6-27B-v2-TQ3_4S 开始聊天

使用 HuggingFace Spaces 运行 Unsloth

无需安装

在浏览器中打开 https://huggingface.co/spaces/unsloth/studio

搜索 YTan2000/Qwopus3.6-27B-v2-TQ3_4S 开始聊天

启动 llama.cpp 服务器

安装 llama.cpp：

启动本地 OpenAI 兼容的服务器：

在 Pi 中配置模型

安装 Pi：

添加至 ~/.pi/agent/models.json：

运行 Pi

在项目目录中启动 Pi：

启动 llama.cpp 服务器

安装 llama.cpp：

启动本地 OpenAI 兼容的服务器：

配置 Hermes

安装 Hermes：

将 Hermes 指向本地服务器：

运行 Hermes

拉取模型

从 https://lemonade-server.ai/ 下载 Lemonade

运行并与模型聊天

列出所有可用模型

相似文章

Jackrong/Qwopus3.6-27B-v2-MTP-GGUF

Jackrong/Qwopus3.6-27B-v2-GGUF

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

unsloth/Qwen3.6-27B-GGUF

提交意见反馈