@ggerganov:llama-server -hf ggml-org/Qwen3.6-27B-GGUF --spec-default
摘要
Georgi Gerganov 分享了一条一行命令,用 llama-server 以默认投机解码设置启动量化版 27B Qwen3.6 模型。
llama-server -hf ggml-org/Qwen3.6-27B-GGUF --spec-default
查看缓存全文
缓存时间: 2026/04/22 17:02
llama-server -hf ggml-org/Qwen3.6-27B-GGUF –spec-default
相似文章
Qwen3.6 27b / llama.cpp / opencode 最佳配置
社区讨论帖,分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。
Qwen-3.6-27B + llamacpp 投机解码效果惊艳
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。
本地运行 Qwen3.6-35B-A3B 作为编码 Agent:我的完整部署与可用配置
一份详尽指南,教你如何在 Apple Silicon 上通过 llama.cpp 本地运行 350 亿参数 Qwen3.6 模型,并驱动 pi 编码 Agent,附带优化后的启动参数与采样配置。
@_lewtun: 你现在可以在笔记本上免费全天候运行 AI 研究员了!使用 llama.cpp 和 4-bi…
本文重点介绍了如何在本地笔记本上使用 llama.cpp 和 Unsloth 4-bit 量化免费运行 Qwen3-35B-A3B。
havenoammo/Qwen3.6-27B-MTP-UD-GGUF
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。