标签
宣布Ornith-1.0-35B,一个Qwen3.6-35B-A3B的编码微调版本,在aider基准测试上略优于基础模型。同时推广用于在RTX 3090上运行LLM的club-3090仓库。
在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
讨论运行 Qwen 3.6 模型的最便宜硬件选项,比较 RTX 3090 和 Tesla V100 GPU,并详细列出约 2000 美元系统的成本构成。
使用 RTX 5080 和 RTX 3090 GPU 的配置在 Qwen 3.6 27B Q8 模型上实现了每秒 80 个令牌。
club-3090 为 Qwen3.6-27B 添加了实验性 FP8 支持,使得配备双 RTX 3090 的机器能够以与未量化 BF16 相似的性能运行该模型。
作者观察到,二手 RTX 3090 GPU 在 eBay 上的售价为 1300-1500 美元,高于五年前购买的全新 3090 Ti,并质疑为什么人们会以如此高价购买老旧二手 GPU 用于 AI 工作站。
一条推文建议用户购买RTX 3090以在本地运行AI模型,声称这简单、性能出色且便宜。
用户详细介绍了对配备双RTX 3090 eGPU和NVLink的AMD Strix Halo系统进行改造和基准测试的过程,发现对密集模型的LLM推理速度有所提升,尤其是使用vLLM时,并讨论了能效权衡。
提醒一下,两块RTX 3090加上Qwen 3.6 27B或Gemma 4 31B等开源模型,就可以运行强大的本地AI代理,性能堪比Opus 4.5,配合Claude Code、自托管SearXNG等工具使用。
对llama.cpp的b9200更新进行基准测试,使用优化标志在单张RTX 3090上运行Qwen 3.6 27B MTP,结果显示在代理工作流的提示处理速度方面有显著性能提升。
某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。
一位用户分享了在运行Qwen3.6-27B与vLLM的4x RTX 3090平台上进行的功耗限制测试,发现220W是在最小化吞吐量损失下实现峰值效率的甜点。
PFlash 现在支持在单张 RTX 3090 上运行 @poolsideai 的 Laguna-XS.2 (33B-A3B MoE),实现了 111 tok/s 的解码速度,预填充速度比 llama.cpp 快 5.4 倍,并在高达 131K 上下文中通过 NIAH 测试。
本文展示了 8 个本地大语言模型在 RTX 3090 上的基准测试结果,显示功率能效在约 225W 时达到峰值,而在满功率下收益递减。