标签
用户分享了在2026年第二季度使用3x3090(72GB显存)配置运行大型LLM的经验,推荐了GPT-OSS 120b、Qwen3.5 122b和GLM Air 4.5 106B等模型,并询问是否有更新的替代方案。
一位用户报告称,在使用Qwen模型进行推理时,添加第二张RTX 3090后实现了近乎线性的性能扩展,在没有NVLink的情况下,解码TPS提升了约1.8倍。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
一个名为club-3090的GitHub仓库提供了在RTX 3090 GPU上本地运行大型语言模型的配方和配置,支持多种引擎和量化方法,如Dflash和TurboQuant,包括新解锁的Q5量化。
讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡,用户分享token速度并寻求最佳配置。