给机子加了一张旧2070 Super后，我回不去了……更糟糕的是，我现在需要更多

Reddit r/LocalLLaMA 2026/05/31 15:07 新闻

local-llm vram gpu llama-cpp model-inference hardware-upgrade

摘要

一位用户分享了将旧款 NVIDIA 2070 Super GPU 添加到机子中以获得额外 VRAM 的经验，使其能够以高量化和上下文大小运行像 Qwen3.6-27B 这样的更大模型，且性能良好，现在正考虑升级到 3090 以获得更多 VRAM。

背景：去年11月我在一切崩盘前组装了一台新系统。花了大概5k，配置是5090、9800X3D和96GB内存。最近（过去2-3个月）我一直在全力搭建本地环境。弃用了Windows，从Ubuntu到Manjaro再到现在的CachyOS，现在基本每天编译llama.cpp，跑测试寻找最优模型量化、上下文大小、最佳代理CLI和框架等等……大多数人都懂这套流程。现在：我终于抽出时间拆开了旧PC。看到了那张2070，擦了擦灰，放进了新机子（纯粹出于好奇）。我告诉你：我完全没准备好迎接这额外8GB VRAM带来的冲击。突然就能在Q8_0量化下运行Qwen3.6-27B，上下文144k（也是q8_0），还开着MTP，生成速度仍有40-70 token/s。简直上瘾！现在我正在网上看5070tis和3090的报价（因为它们价格差不多）。我的意思是最终还是会选3090，因为我不能放弃那8GB VRAM，但我真的没准备好。哪怕是一张闲置的2070 Super都能带来这么多价值。这次经历让我大开眼界：可接受的性能 + 更大的VRAM > 惊人的性能 + 更小的VRAM

查看原文

给机子加了一张旧2070 Super后，我回不去了……更糟糕的是，我现在需要更多

相似文章

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

Wow！Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

为最大化StrixHalo性能而折腾（+NVLink双eGPU 3090改造）

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

提交意见反馈