rtx-3090

#rtx-3090

@malikwas1f: Ornith-1.0-35B：一个Qwen3.6-35B-A3B的编码微调版本，在真实编码上略优于基础模型（aider 15/30 vs 13）——完整262K…

X AI KOLs Timeline ↗ · 20小时前缓存

宣布Ornith-1.0-35B，一个Qwen3.6-35B-A3B的编码微调版本，在aider基准测试上略优于基础模型。同时推广用于在RTX 3090上运行LLM的club-3090仓库。

0 人收藏 0 人点赞

#rtx-3090

Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力

Reddit r/LocalLLaMA ↗ · 4天前

在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南：比较两个 llama.cpp 分支及量化方法，以达到最佳速度与质量。

0 人收藏 0 人点赞

#rtx-3090

@ItsmeAjayKV: 3090 更新：现在使用 Qwen 3.6-35b-a3b MoE (q6_k_xl)。首次突破 90 t/s，尚未启用 MTP，预填充速度…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型，实现了超过 90 tokens/s 的推理速度，预填充速度超过 1000 t/s，表明在消费级硬件上本地部署大型语言模型是可行的。

0 人收藏 0 人点赞

#rtx-3090

Qwen 3.6 最便宜的硬件：27B 和 35B-A3B 版本

Reddit r/LocalLLaMA ↗ · 2026-06-15

讨论运行 Qwen 3.6 模型的最便宜硬件选项，比较 RTX 3090 和 Tesla V100 GPU，并详细列出约 2000 美元系统的成本构成。

0 人收藏 0 人点赞

#rtx-3090

RTX 5080 和 RTX 3090 配置：在 Qwen 3.6 27B Q8 上达到 80 令牌/秒

Hacker News Top ↗ · 2026-06-13

使用 RTX 5080 和 RTX 3090 GPU 的配置在 Qwen 3.6 27B Q8 模型上实现了每秒 80 个令牌。

0 人收藏 0 人点赞

#rtx-3090

club-3090 为 Qwen3.6-27B 添加实验性 FP8 支持！

Reddit r/LocalLLaMA ↗ · 2026-06-07

club-3090 为 Qwen3.6-27B 添加了实验性 FP8 支持，使得配备双 RTX 3090 的机器能够以与未量化 BF16 相似的性能运行该模型。

0 人收藏 0 人点赞

#rtx-3090

RTX 3090 在 eBay 上的价格太疯狂了！！

Reddit r/LocalLLaMA ↗ · 2026-06-06

作者观察到，二手 RTX 3090 GPU 在 eBay 上的售价为 1300-1500 美元，高于五年前购买的全新 3090 Ti，并质疑为什么人们会以如此高价购买老旧二手 GPU 用于 AI 工作站。

0 人收藏 0 人点赞

#rtx-3090

@TheAhmadOsman: 你应该购买RTX 3090并学习如何在本地运行模型。精英们不想让你知道，但运行本地模型…

X AI KOLs Following ↗ · 2026-05-24 缓存

一条推文建议用户购买RTX 3090以在本地运行AI模型，声称这简单、性能出色且便宜。

0 人收藏 0 人点赞

#rtx-3090

为最大化StrixHalo性能而折腾（+NVLink双eGPU 3090改造）

Reddit r/LocalLLaMA ↗ · 2026-05-22

用户详细介绍了对配备双RTX 3090 eGPU和NVLink的AMD Strix Halo系统进行改造和基准测试的过程，发现对密集模型的LLM推理速度有所提升，尤其是使用vLLM时，并讨论了能效权衡。

0 人收藏 0 人点赞

#rtx-3090

@TheAhmadOsman: 温馨提醒，开始使用本地AI所需的一切就是： - 2x RTX 3090（在r/hardwareswap上花$700-$900入手） -…

X AI KOLs Timeline ↗ · 2026-05-19 缓存

提醒一下，两块RTX 3090加上Qwen 3.6 27B或Gemma 4 31B等开源模型，就可以运行强大的本地AI代理，性能堪比Opus 4.5，配合Claude Code、自托管SearXNG等工具使用。

0 人收藏 0 人点赞

#rtx-3090

基准测试新b9200更新：在单张RTX 3090上为Hermes Agent优化Qwen 3.6 27B mtp

Reddit r/LocalLLaMA ↗ · 2026-05-18

对llama.cpp的b9200更新进行基准测试，使用优化标志在单张RTX 3090上运行Qwen 3.6 27B MTP，结果显示在代理工作流的提示处理速度方面有显著性能提升。

0 人收藏 0 人点赞

#rtx-3090

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline ↗ · 2026-05-16 缓存

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试，发现MTP在长上下文（32k-64k）下生成速度最高可提升2.37倍，但预填充较慢且暂不支持并发。

0 人收藏 0 人点赞

#rtx-3090

探寻4x 3090的甜点

Reddit r/LocalLLaMA ↗ · 2026-05-15

一位用户分享了在运行Qwen3.6-27B与vLLM的4x RTX 3090平台上进行的功耗限制测试，发现220W是在最小化吞吐量损失下实现峰值效率的甜点。

0 人收藏 0 人点赞

#rtx-3090

@pupposandro: PFlash 现在在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)。- 短上下文下 111 tok/s 解码 - 128K TTFT…

X AI KOLs Following ↗ · 2026-05-14 缓存

PFlash 现在支持在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE)，实现了 111 tok/s 的解码速度，预填充速度比 llama.cpp 快 5.4 倍，并在高达 131K 上下文中通过 NIAH 测试。

0 人收藏 0 人点赞

#rtx-3090

@Snixtp: 针对单张 RTX 3090 的更多能效测试长文速读：- 我在单张 RTX 3090 上测试了 8 个本地大语言模型（LLM），功率限制从 100W 到 45…

X AI KOLs Following ↗ · 2026-05-08

本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果，显示功率能效在约 225W 时达到峰值，而在满功率下收益递减。

0 人收藏 0 人点赞

rtx-3090

提交意见反馈