@ggerganov：llama-server -hf ggml-org/Qwen3.6-27B-GGUF --spec-default

X AI KOLs Following 2026/04/22 16:22 工具

llama-server gguf qwen speculation

摘要

Georgi Gerganov 分享了一条一行命令，用 llama-server 以默认投机解码设置启动量化版 27B Qwen3.6 模型。

llama-server -hf ggml-org/Qwen3.6-27B-GGUF --spec-default

查看原文

查看缓存全文

缓存时间: 2026/04/22 17:02

llama-server -hf ggml-org/Qwen3.6-27B-GGUF –spec-default

相似文章

Reddit r/LocalLLaMA

社区讨论帖，分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。

Reddit r/LocalLLaMA

Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s，并分享了完整的命令参数和硬件配置。

Reddit r/LocalLLaMA

一份详尽指南，教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型，并驱动 pi 编码 Agent，附带优化后的启动参数与采样配置。

X AI KOLs Timeline

本文重点介绍了如何在本地笔记本上使用 llama.cpp 和 Unsloth 4-bit 量化免费运行 Qwen3-35B-A3B。

Hugging Face Models Trending

该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件，这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明，以实现投机解码。