@TraffAlex: 消费级GPU的最佳本地LLM——llama.cpp指南(2026年6月)我目前在消费级硬件上实际运行的内容。Eve…
摘要
截至2026年6月,面向消费级GPU的最佳本地LLM指南,使用llama.cpp在8-32GB显存上运行如Gemma 4-12B、Qwen3.6-27B和Nex-N2-Mini等模型,包含设置和启动命令。
查看缓存全文
缓存时间: 2026/06/15 02:50
最佳消费级GPU本地大模型——llama.cpp指南(2026年6月) 我现在实际在消费级硬件上运行的模型。以下每个模型都通过 llama.cpp 配合单行命令运行——无需 Docker、Python 环境或云端。
━━━ 8-16GB 显存 ━━━
Gemma 4-12B(Google) • 该尺寸级别中最智能的模型——性能可媲美两倍大小的模型 • Unsloth 的 MTP GGUF:162 tok/s vs 普通版的 52 tok/s(3倍加速) • 建议最低 8GB 显存用于 Q4_K_M 量化 • GGUF → http://huggingface.co/unsloth/gemma-4-12b-it-GGUF…
LFM2.5-8B-A1B(LiquidAI) • 混合 MoE,仅 1B 活跃参数——在同等尺寸下速度惊人 • 非常适合 8-12GB 显卡、MacBook 或预算有限的用户 • GGUF → http://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF…
━━━ 16-32GB 显存 ━━━
Qwen3.6-27B(Qwen) • 工具效率基准测试得分 1.00——目前最佳本地 Agent • 40 项确定性任务,32k/128k 上下文针测试——全部通过 • GGUF → http://huggingface.co/unsloth/Qwen3.6-27B-GGUF… • MTP 版(更快) → http://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF…
Qwopus3.6-27B-v2(Jackrong) • Qwen3.6-27B 的最佳量化版本——在 5 个 Agent 和代码基准测试中(1200 个样本)名列前茅 • 如果你在运行 Q4,这是必选版本 • GGUF → http://huggingface.co/Jackrong/Qwopus3.6-27B-v2-GGUF… • MTP 版 → http://huggingface.co/Jackrong/Qwopus3.6-27B-v2-MTP-GGUF…
Gemma 4-31B QAT(Google/Unsloth) • QAT 变体,带 MTP 草稿头:76-125 tok/s(1.67 倍加速) • 非常适合多 Agent / 子 Agent 工作流 • GGUF → http://huggingface.co/unsloth/gemma-4-31B-it-qat-GGUF…
Nex-N2-Mini(Nex AGI) • 基于 Qwen3.5-35B-A3B 的后训练——MoE,仅 3B 活跃参数 • 适合 16GB 以上显存,溢出时从系统内存加载 • 自适应思考节省约 20% token,不影响质量 • 对于深度多步推理,同尺寸范围内无出其右 • GGUF → http://huggingface.co/sjakek/Nex-N2-mini-GGUF…
━━━ 快速推荐 ━━━
• 16GB 全能型 → Gemma 4-12B(MTP GGUF 版) • 32GB 全能型 → Qwen3.6-27B / Qwopus-v2 • Agent 和工具使用 → Qwen3.6-27B 或 Qwopus Q4 • 深度推理 → Nex-N2-Mini(MoE,适合 16GB+) • 预算有限 → LFM2.5-8B-A1B • 最便宜整机配置:1× 二手 RTX 3090(24GB)+ 其他配件 ≈ $1000-1500
━━━ Windows 环境设置 ━━━
- 下载 llama.cpp → http://github.com/ggml-org/llama.cpp/releases…(最新 .zip)
- 解压到任意文件夹(例如 C:\llama.cpp)
- 从上方链接下载 .gguf 文件(推荐 Q4_K_M 或 Q5_K_M,取得质量与速度的最佳平衡)
- 根据你的硬件运行以下命令之一
━━━ 启动命令 ━━━
单 GPU — 标准模型(无 MTP):
llama-server.exe ^ -m C:\models\Qwen3.6-27B-Q5_K_M.gguf ^ –ctx-size 180000 ^ –flash-attn on ^ –cache-type-k q4_0 ^ –cache-type-v q4_0 ^ –batch-size 1024 –ubatch-size 512 ^ -ngl 100 ^ -np 1 ^ –port 8080 ^ –jinja
单 GPU — MTP 模型(推理更快):
llama-server.exe ^ -m C:\models\Qwen3.6-27B-MTP-Q5_K_M.gguf ^ –ctx-size 180000 ^ –flash-attn on ^ –cache-type-k q4_0 ^ –cache-type-v q4_0 ^ –batch-size 1024 –ubatch-size 512 ^ –spec-type draft-mtp ^ –spec-draft-n-max 3 ^ -ngl 100 ^ -np 1 ^ –port 8080 ^ –jinja
双 GPU — 在两块显卡之间分配:
llama-server.exe ^ -m C:\models\Qwen3.6-27B-Q5_K_M.gguf ^ –ctx-size 180000 ^ –flash-attn on ^ –cache-type-k q4_0 ^ –cache-type-v q4_0 ^ –batch-size 1024 –ubatch-size 512 ^ -ngl 100 ^ –tensor-split 0.55,0.45 ^ –main-gpu 0 ^ -np 1 ^ –port 8080 ^ –jinja
双 GPU + MTP + 视觉(多模态):
llama-server.exe ^ -m C:\models\Qwen3.6-27B-MTP-Q5_K_M.gguf ^ –ctx-size 180000 ^ –flash-attn on ^ –cache-type-k q4_0 ^ –cache-type-v q4_0 ^ –batch-size 1024 –ubatch-size 512 ^ –spec-type draft-mtp ^ –spec-draft-n-max 3 ^ -ngl 100 ^ –tensor-split 0.60,0.40 ^ –main-gpu 0 ^ -np 1 ^ –port 8080 ^ –jinja ^ –mmproj C:\models\mmproj-F16.gguf
━━━ 参数详解 ━━━
-m 指向 .gguf 模型文件的路径。根据你的下载位置修改此路径。
–ctx-size 180000 上下文窗口的 token 数。180k 意味着超长上下文,适合长对话或大型代码库。若不需要长上下文可减少为 32768 或 65536 —— 可节省显存。
–flash-attn on Flash Attention —— 大幅加速推理并减少显存占用。适用于 RTX 30xx/40xx/50xx 显卡。始终启用此项。
–cache-type-k q4_0 / –cache-type-v q4_0 将 KV 缓存(键/值注意力缓存)量化为 4 位。这是让 180k 上下文能装进显存的关键。没有它,超大上下文会耗尽所有内存。质量影响极小 —— 这是免费的性能提升。
–batch-size 1024 / –ubatch-size 512 batch-size = 一次前向传播中处理的 token 数(吞吐量)。ubatch-size = 每一步实际发送到 GPU 的微批次大小。值越大,提示处理越快,但需要更多显存。如果显存不足,降低这些值(例如 512/256)。
-ngl 100 卸载到 GPU 的层数。100 = 所有层都在 GPU 上(完全卸载)。如果模型能装进显存,就使用此值。若装不下,则减小此值(例如 -ngl 40)——剩余层在 CPU/RAM 上运行。
–tensor-split 0.55,0.45 如何在多 GPU 间分配模型层。值为比例。0.55,0.45 = GPU 0 占 55% 层,GPU 1 占 45%。根据你的显存调整 —— 给显存更大的卡分配更多层。例如 24GB + 12GB 配置设为 0.70,0.30。单 GPU 设置无需此参数。
–main-gpu 0 负责批次计算的 GPU(“编排者”)。设为 0(你的主 GPU)。其他 GPU 处理分配给它们的层。对性能影响较小 —— 通常保持为 0 即可。
-np 1 并行槽位数(并发请求数)。1 = 一次一个用户。如需多个客户端同时连接,可增加到 2-4。每个额外槽位会为自己的 KV 缓存占用额外显存。
–port 8080 服务器监听的端口。若 8080 端口被占用,请更改。
–jinja 启用 Jinja2 模版处理 —— 正确聊天格式所必需。大多数现代模型都要求此参数。始终包含它。
–spec-type draft-mtp 启用多 token 预测(MTP)推测解码。仅适用于 MTP GGUF 模型(单独下载)。模型一次预测多个 token 并进行验证 —— 大幅提升速度。
–spec-draft-n-max 3 MTP 草稿头每步提议的 token 数。3 是一个不错的默认值。数值越大可能更快,但会占用更多显存,且可能降低质量。
–mmproj 多模态投影器文件的路径(用于视觉模型)。启用图像理解 —— 可在网页聊天中粘贴截图。仅当你需要视觉能力时才需要。纯文本使用时省略此项。
━━━ 你的硬件 → 你的命令 ━━━
单 GPU(8-24GB 显存): 使用“单 GPU“命令。将 -m 改为你的模型路径。 8GB 显卡 → Gemma 4-12B Q4 或 LFM2.5-8B 12GB 显卡 → Gemma 4-12B Q5/Q6 16GB 显卡 → Gemma 4-31B QAT Q4 或 Nex-N2-Mini 24GB 显卡 → Qwen3.6-27B Q4/Q5、Qwopus-v2、Gemma 4-31B QAT Q5/Q6
双 GPU: 使用“双 GPU“命令。根据你的显存比例调整 –tensor-split。 24GB + 24GB → –tensor-split 0.50,0.50 24GB + 12GB → –tensor-split 0.70,0.30 24GB + 8GB → –tensor-split 0.75,0.25
想要速度? 使用模型的 MTP 版本,配合“MTP“命令。
想要视觉? 添加 –mmproj 参数,并指定从模型 HuggingFace 仓库下载的投影器文件。
- 启动后,你将获得: • 网页聊天界面 → http://localhost:8080 • 兼容 OpenAI 的 API → http://localhost:8080/v1 • Playground → http://localhost:8080/playground
━━━ 为什么 /v1 API 是杀手锏 ━━━
一个本地端点就能取代你全部的云端 API 账单。/v1 端点完全兼容 OpenAI 规范 —— 任何支持 OpenAI 的工具都能直接使用。无需自定义代码或胶水层。
开箱即用支持: • IDE:Cursor、Continue、Windsurf、Cline、Roo Code • CLI 工具:aider、Open Interpreter、OpenCode • 框架:LangChain、LlamaIndex、LiteLLM • 任何 OpenAI SDK(Python、Node、Go、Rust)
为什么这比云端 API 更好: • 100% 私密 —— 代码永远不会离开你的机器 • 每 token $0 —— 无速率限制、无配额、无意外账单 • 完全离线运行 • 零遥测,你的数据不会被用于训练 • 切换模型只需替换不同的 .gguf 文件 —— 无需更改应用 • 运行 32k–128k 上下文窗口,无需烧钱
推荐组合: • Cursor + Qwopus-v2 → 接近前沿品质,零 API 成本 • Continue + Qwen3.6-27B → 最佳本地编码 Agent • aider + Gemma 4-12B MTP → 162 tok/s,感觉瞬间响应 • OpenCode + Nex-N2-Mini → 16GB 上实现深度推理
将任何兼容 OpenAI 的客户端配置为你的本地端点:
set OPENAI_API_KEY=sk-dummy(任意非空字符串即可) set OPENAI_BASE_URL=http://localhost:8080/v1
现在所有兼容 OpenAI 的工具都会访问你的本地 GPU
鸣谢:@0xSero @rS_alonewolf @witcheer @UnslothAI @LottoLabs
Hugging Face(https://huggingface.co/collections/google/gemma-4)| GitHub(https://github.com/google-gemma)| 发布博客(https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/)| 文档(https://ai.google.dev/gemma/docs/core)
许可证:Apache 2.0(https://ai.google.dev/gemma/docs/gemma_4_license)| 作者:Google DeepMind(https://deepmind.google/models/gemma/)
此模型卡片针对 Gemma 4 12B Unified 模型,该模型是 Gemma 4 系列开放模型的一部分。它与 Gemma 4 E2B 和 E4B 具有相同的多模态功能(文本、音频、图像和视频输入),将原生音频和视觉理解直接带到本地环境,无需单独的编码器。这种统一的多模态方法使模型无需编码器,部署尺寸非常适合消费级设备和简化的本地执行。
Gemma 是由 Google DeepMind 构建的开放模型系列。Gemma 4 模型是多模态的,处理文本和图像输入(E2B、E4B 和 12B 支持音频)并生成文本输出。本次发布包括预训练和指令微调变体的开放权重模型。Gemma 4 的上下文窗口最高可达 256K token,并支持 140 多种语言的多语言能力。Gemma 4 采用 Dense 和 Mixture-of-Experts(MoE)架构,非常适合文本生成、编码和推理等任务。该模型提供五种不同尺寸:E2B、E4B、12B、26B A4B 和 31B。多样化的尺寸使其可部署在从高端手机到笔记本电脑和服务器的各种环境中,使最先进的 AI 平民化。
Gemma 4 引入了关键能力和架构进步:
- 推理— 系列中的所有模型都设计为高能力推理器,具有可配置的思考模式。
- 扩展多模态— 处理文本、图像(支持可变宽高比和分辨率,所有模型)、视频和音频(E2B、E4B 和 12B 模型原生支持)。
- 多样高效的架构— 提供不同尺寸的 Dense 和 Mixture-of-Experts(MoE)变体,以便可扩展部署。
- 针对设备端优化— 较小模型专为在笔记本电脑和移动设备上高效本地执行而设计。
- 更大的上下文窗口— 小模型具有 128K 上下文窗口,中型模型支持 256K。
- 增强的编码和 Agent 能力— 在编码基准测试中取得显著改进,同时支持原生函数调用,赋能高度能力的自主 Agent。
- 原生系统提示支持— Gemma 4 引入了对
system角色的原生支持,实现更结构化和可控的对话。
https://huggingface.co/unsloth/gemma-4-12b-it-GGUF#models-overview
模型概览
Gemma 4 模型旨在每种尺寸下提供前沿性能,针对从移动和边缘设备(E2B、E4B)到消费级 GPU 和工作站(12B、26B A4B、31B)的部署场景。它们非常适合推理、Agent 工作流、编码和多模态理解。这些模型采用混合注意力机制,在局部滑动窗口注意力与完全全局注意力之间交替,确保最后一层始终是全局层。这种混合设计提供了轻量级模型的处理速度和低内存占用,同时不牺牲复杂长上下文任务所需的深度感知。为优化长上下文的内存,全局层采用统一的键和值,并应用比例 RoPE(p-RoPE)。
https://huggingface.co/unsloth/gemma-4-12b-it-GGUF#dense-models
Dense 模型
| 属性 | E2B | E4B | 12B Unified | 31B Dense |
|---|---|---|---|---|
| 总参数 | 2.3B 有效(含嵌入 5.1B) | 4.5B 有效(含嵌入 8B) | 11.95B | 30.7B |
| 层数 | 35 | 42 | 48 | 60 |
| 滑动窗口 | 512 tokens | 512 tokens | 1024 tokens | 1024 tokens |
| 上下文长度 | 128K tokens | 128K tokens | 256K tokens | 256K tokens |
| 词汇表大小 | 262K | 262K | 262K | 262K |
| 支持的模态 | 文本、图像、音频 | 文本、图像、音频 | 文本、图像、音频 | 文本、图像 |
| 视觉编码器参数 | ~150M | ~150M | - | ~550M |
| 音频编码器参数 | ~300M | ~300M | - | 无音频 |
E2B 和 E4B 中的“E“代表“有效“参数。较小的模型采用逐层嵌入(PLE)以在设备端部署中最大化参数效率。PLE 不向模型添加更多层或参数,而是为每一层赋予其自己的小嵌入表,用于每个 token。这些嵌入表很大,但仅用于快速查找,这就是有效参数计数远小于总参数的原因。
Gemma 4 12B Unified 中的“Unified“指的是其无需编码器的架构。其他 Gemma 4 模型在将多模态数据传递给 LLM 之前使用专用编码器进行处理。Gemma 4 12B 完全消除了这些编码器,通过轻量线性层将原始图像块和音频波形直接投影到 LLM 的嵌入空间中。这种统一的方法意味着所有模态直接流入单个仅解码器 transformer,减少了多模态延迟,并允许在单次训练中微调整个模型。
https://huggingface.co/unsloth/gemma-4-12b-it-GGUF#mixture-of-experts-moe-model
Mixture-of-Experts(MoE)模型
| 属性 | 26B A4B MoE |
|---|---|
| 总参数 | 25.2B |
| 活跃参数 | 3.8B |
| 层数 | 30 |
| 滑动窗口 | 1024 tokens |
| 上下文长度 | 256K tokens |
| 词汇表大小 | 262K |
| 专家数量 | 8 活跃 / 128 总数 + 1 共享 |
| 支持的模态 | 文本、图像 |
| 视觉编码器参数 | ~550M |
26B A4B 中的“A“代表“活跃参数“,与模型包含的总参数数形成对比。通过在推理期间仅激活 4B 参数子集,Mixture-of-Experts 模型的运行速度远快于其 26B 总参数所暗示的速度。这使其成为与密集 31B 模型相比快速推理的绝佳选择,因为它的运行速度几乎与 4B 参数模型一样快。
https://huggingface.co/unsloth/gemma-4-12b-it-GGUF#benchmark-results
基准测试结果
这些模型在大量不同的数据集和指标上进行了评估,以涵盖文本生成的不同方面。表格中标注的评估结果针对指令微调模型。
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B Unified | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B(无思考) | |
|---|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 77.2% | 69.4% | 60.0% | 67.6% |
| AIME 2026 无工具 | 89.2% | 88.3% | 77.5% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 72.0% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 78.8% | 58.6% | 43.4% | 42.4% |
| Tau2(3 次平均) | 76.9% | 68.2% | 69.0% | 42.2% | 24.5% | 16.2% |
| HLE 无工具 | 19.5% | 8.7% | 5.2% | - | - | - |
| HLE 带搜索 | 26.5% | 17.2% | - | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 53.0% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 83.4% | 76.6% | 67.4% | 70.7% |
| 视觉 | ||||||
| MMMU Pro | 76.9% | 73.8% | 69.1% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5(平均编辑距离,越低越好) | 0.131 | 0.149 | 0.164 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 79.7% | 59.0% | (缺失值,原文为 59.) | (缺失值) |
相似文章
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。
@analogalok:我的8GB显存游戏本肯定会恨我这么做,但我还是做了。跑了一个31B稠密模型(Gemma 4…
用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。
@iluciddreaming: 玩了两个月本地 LLM。 用 Windows 11 + llama.cpp + llama-swap 狂测各种开源模型,这是我的最终成绩单: 硬件:i7-13700 + 64GB RAM + RTX 4070 目前最能打的组合是 gemm…
经过两个月本地 LLM 测试,作者认为 gemma-4-12B-it-QAT 和 MTP 辅助组合在速度和可用性上表现最佳,硬件为 i7-13700 + 64GB RAM + RTX 4070。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
club-5060ti: 实用的RTX 5060 Ti本地LLM笔记与配置
一个GitHub仓库,提供在双RTX 5060 Ti 16GB显卡上使用vLLM和llama.cpp运行本地LLM(如Qwen3.6 27B)的实用配置和基准测试。