在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

Reddit r/LocalLLaMA 2026/05/12 14:53 工具

local-llm autocomplete agentic-coding qwen llama-cpp gguf gpu-setup

摘要

使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成（Qwen2.5-Coder-7B）与代理编码（Qwen3.6-35B-A3B）的技术指南，包含命令与性能基准。

今天我在一块 RTX 5080 上（配合 RAM 卸载）搭建了一套完整的编程工具箱，实际可用。**自动补全**：`bartowski/Qwen2.5-Coder-7B-Instruct-GGUF:Q6_K_L` **智能体**：`unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q8_K_XL` --- ### 为什么选择这些模型：在我看来，Qwen2.5 仍然是目前最适合代码补全（infill）的模型。我试过 Gemma4 E4B 和 Qwen3.5 9B/4B，它们都会产生奇怪的建议。按下方命令运行时，这个自动补全模型大约占用 8GB 显存，补全速度几乎瞬时。 Qwen3.6 35B-A3B 在 Q8 量化下，配合合适的提示词，确实能做好智能体编程。在 Q4 量化下说实话不太能用，经常迷失方向，但在 Q8 下它能理清思路并正确完成任务。如果你的机器没有足够多的 RAM 来装载 MoE 专家层，可以试试 Q6_K，但更低量化的版本存在明显的质量下降。你至少需要 64GB 总内存。我有 96GB，但两个模型运行的同时还开着浏览器、IDE、Teams 等一堆杂七杂八的东西，内存使用量大约在 56GB。由于它只有 3B 活跃参数，速度依然很快，并且能装入剩余的 8GB 显存中。 --- ### 命令： ```bash llama-server -hf bartowski/Qwen2.5-Coder-7B-Instruct-GGUF:Q6_K_L \ -ngl 99 --no-mmap --ctx-size 0 -ctk q8_0 -ctv q8_0 \ -np 1 --temp 0.5 --top-p 0.95 --top-k 20 --min-p 0.0 --port 8081 ``` 注意：其实我不太确定 Qwen2.5 的最佳超参数应该怎么设，或许有人能指点一下，我会更新帖子。 ```bash llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q8_K_XL \ --no-mmap --no-mmproj -fitt 0 -ngl 99 --cpu-moe \ -b 2048 -ub 2048 --jinja \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.01 ``` llama.cpp 会自动适配模型，我用这条命令获得了大约 145k 的上下文长度。如果你想要更长的上下文，可以加上 `-ctv q8_0 -ctk q8_0`。 35B-A3B 在此设置下的速度： ``` pp4096 | 2093.93 ± 22.64 tg128 | 35.29 ± 0.48 ```

查看原文

在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

相似文章

帮助优化 llama.cpp + Qwen 27B 在 RTX PRO 6000 Blackwell 上用于编码代理的配置

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Qwen3.6 27b / llama.cpp / opencode 最佳配置

@TraffAlex: 消费级GPU的最佳本地LLM——llama.cpp指南（2026年6月）我目前在消费级硬件上实际运行的内容。Eve…

提交意见反馈