在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码

Reddit r/LocalLLaMA 工具

摘要

使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。

今天我在一块 RTX 5080 上(配合 RAM 卸载)搭建了一套完整的编程工具箱,实际可用。**自动补全**:`bartowski/Qwen2.5-Coder-7B-Instruct-GGUF:Q6_K_L` **智能体**:`unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q8_K_XL` --- ### 为什么选择这些模型: 在我看来,Qwen2.5 仍然是目前最适合代码补全(infill)的模型。我试过 Gemma4 E4B 和 Qwen3.5 9B/4B,它们都会产生奇怪的建议。按下方命令运行时,这个自动补全模型大约占用 8GB 显存,补全速度几乎瞬时。 Qwen3.6 35B-A3B 在 Q8 量化下,配合合适的提示词,确实能做好智能体编程。在 Q4 量化下说实话不太能用,经常迷失方向,但在 Q8 下它能理清思路并正确完成任务。如果你的机器没有足够多的 RAM 来装载 MoE 专家层,可以试试 Q6_K,但更低量化的版本存在明显的质量下降。你至少需要 64GB 总内存。我有 96GB,但两个模型运行的同时还开着浏览器、IDE、Teams 等一堆杂七杂八的东西,内存使用量大约在 56GB。由于它只有 3B 活跃参数,速度依然很快,并且能装入剩余的 8GB 显存中。 --- ### 命令: ```bash llama-server -hf bartowski/Qwen2.5-Coder-7B-Instruct-GGUF:Q6_K_L \ -ngl 99 --no-mmap --ctx-size 0 -ctk q8_0 -ctv q8_0 \ -np 1 --temp 0.5 --top-p 0.95 --top-k 20 --min-p 0.0 --port 8081 ``` 注意:其实我不太确定 Qwen2.5 的最佳超参数应该怎么设,或许有人能指点一下,我会更新帖子。 ```bash llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q8_K_XL \ --no-mmap --no-mmproj -fitt 0 -ngl 99 --cpu-moe \ -b 2048 -ub 2048 --jinja \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.01 ``` llama.cpp 会自动适配模型,我用这条命令获得了大约 145k 的上下文长度。如果你想要更长的上下文,可以加上 `-ctv q8_0 -ctk q8_0`。 35B-A3B 在此设置下的速度: ``` pp4096 | 2093.93 ± 22.64 tg128 | 35.29 ± 0.48 ```
查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。