2026年第二季度，在3x3090（72GB显存）配置上最好的模型？

Reddit r/LocalLLaMA 2026/06/13 20:07 新闻

llm hardware 3090 vram model-comparison qwen glm

摘要

用户分享了在2026年第二季度使用3x3090（72GB显存）配置运行大型LLM的经验，推荐了GPT-OSS 120b、Qwen3.5 122b和GLM Air 4.5 106B等模型，并询问是否有更新的替代方案。

大约在今年年初，我搭建了我的LLM电脑——一台非常老旧的DDR4电脑，配备了3x3090显卡，所以我只使用72GB显存来加载模型（为了速度）。我主要使用以下三个模型： - GPT-OSS 120b 仍然相当不错 - Qwen3.5 122b 对于一次性编码来说非常（非常！）好，但在我看来过度思考严重 - GLM Air 4.5 106B 默认无思考模式，我经常用它来快速回复偶尔我也会使用： - Gemma 4 31B 或 Qwen3.6 27B，因为它们加载和卸载速度快，而且有时我需要将一张显卡用于其他任务——我把LLM放在2x3090上，1x3090用于音频图像处理。由于它们在Q8下也能很好地适配48GB，在某些情况下我确实更信任它们而不是更大的模型。荣誉提及（我无理由停止使用的）： - Nematron Nano Omni 30B A3B 非常好，但我从不使用它，因为大多数通用任务我都默认用大模型 - Devstral Small 2 24B 曾经是我最喜欢的模型，直到Qwen 27B完全取代了它，成为我首选的开发专用LLM，并与大模型Qwen 122B配合进行“架构”决策有没有更新或更好的模型能适配72GB显存？

查看原文

相似文章

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA

一位用户分享了在双GPU配置（RTX 4090 + RTX 3090）上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置，在250k上下文下实现了75-100 t/s和1500 pp。

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

Reddit r/LocalLLaMA

用户分享了使用 Qwen 3.6 27B 进行本地编码任务的经验，并寻求适合拥有 224GB 显存系统的更大模型（100B 以上）的推荐。

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA

一位用户在12GB的RTX 3060上对Qwen 35B-A3B（一个35B参数的MoE模型）进行了基准测试，发现12GB显存是运行该模型并支持32k上下文时的实用甜点区，生成速度可达约47 token/秒。

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户，首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志，而非合成基准测试。**本文所有数据的关键负载背景：** 测试框架是一个多智能体编排器，同时运行 1-6 个并发的 OpenCode 会话，Prompt 长度为 30-60k token，并且强制执行**严格的 Bash 允许列表

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

Reddit r/LocalLLaMA

一位用户分享其配置：使用两块改装版RTX 2080 Ti GPU（每块22GB显存）通过llama.cpp以38 token/s运行Qwen 3.6 27B，并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。

相似文章

48GB VRAM + Qwen 3.6 27B 的最佳设置

高显存本地编码模型——依然首选 Qwen 3.6 27B 吗？

Qwen 35B-A3B 在 12GB 显存下非常可用。

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

提交意见反馈