2026年第二季度,在3x3090(72GB显存)配置上最好的模型?

Reddit r/LocalLLaMA 新闻

摘要

用户分享了在2026年第二季度使用3x3090(72GB显存)配置运行大型LLM的经验,推荐了GPT-OSS 120b、Qwen3.5 122b和GLM Air 4.5 106B等模型,并询问是否有更新的替代方案。

大约在今年年初,我搭建了我的LLM电脑——一台非常老旧的DDR4电脑,配备了3x3090显卡,所以我只使用72GB显存来加载模型(为了速度)。我主要使用以下三个模型: - GPT-OSS 120b 仍然相当不错 - Qwen3.5 122b 对于一次性编码来说非常(非常!)好,但在我看来过度思考严重 - GLM Air 4.5 106B 默认无思考模式,我经常用它来快速回复 偶尔我也会使用: - Gemma 4 31B 或 Qwen3.6 27B,因为它们加载和卸载速度快,而且有时我需要将一张显卡用于其他任务——我把LLM放在2x3090上,1x3090用于音频图像处理。由于它们在Q8下也能很好地适配48GB,在某些情况下我确实更信任它们而不是更大的模型。 荣誉提及(我无理由停止使用的): - Nematron Nano Omni 30B A3B 非常好,但我从不使用它,因为大多数通用任务我都默认用大模型 - Devstral Small 2 24B 曾经是我最喜欢的模型,直到Qwen 27B完全取代了它,成为我首选的开发专用LLM,并与大模型Qwen 122B配合进行“架构”决策 有没有更新或更好的模型能适配72GB显存?
查看原文

相似文章

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA

一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA

一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表