3090

标签

Cards List
#3090

2026年第二季度,在3x3090(72GB显存)配置上最好的模型?

Reddit r/LocalLLaMA · 2026-06-13

用户分享了在2026年第二季度使用3x3090(72GB显存)配置运行大型LLM的经验,推荐了GPT-OSS 120b、Qwen3.5 122b和GLM Air 4.5 106B等模型,并询问是否有更新的替代方案。

0 人收藏 0 人点赞
#3090

再加一张GPU就获得近乎线性的扩展?有点奇怪

Reddit r/LocalLLaMA · 2026-06-08

一位用户报告称,在使用Qwen模型进行推理时,添加第二张RTX 3090后实现了近乎线性的性能扩展,在没有NVLink的情况下,解码TPS提升了约1.8倍。

0 人收藏 0 人点赞
#3090

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial · 2026-06-02

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。

0 人收藏 0 人点赞
#3090

@malikwas1f: 哎呀哎呀,Beellama已经成功合并了Dflash+TurboQuant。这解锁了Q5量化。情况变得越来越好……

X AI KOLs Timeline · 2026-05-24 缓存

一个名为club-3090的GitHub仓库提供了在RTX 3090 GPU上本地运行大型语言模型的配方和配置,支持多种引擎和量化方法,如Dflash和TurboQuant,包括新解锁的Q5量化。

0 人收藏 0 人点赞
#3090

既然MTP已合并……你在2x3090上运行Qwen 3.6 35B的最佳输出是什么?

Reddit r/LocalLLaMA · 2026-05-16

讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡,用户分享token速度并寻求最佳配置。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈