双RTX 3090构建
摘要
一位用户分享其用于本地LLM推理的双RTX 3090构建,并寻求关于智能体工作及RAG流水线的工具栈建议。
加入这个社区重新点燃了我对软件工程的兴趣和爱好,这是我曾经失去的。于是我组装了这台双RTX 3090设备,主要用于推理。我知道短期内它无法取代ChatGPT,但什么样的工具栈能让它在工作环境中变得可用?必须使用MCP服务器或自定义工具/脚本吗?目前我在使用带有qwen3.6 27b的VScode预览版和一个nginx服务器。我主要对具有实用上下文的智能体工作感兴趣,或者至少对代码库有更好的理解(RAG流水线?)。这个社区一直非常有帮助,希望本地LLM继续发展,因为我担心云服务在消费层面会变得难以负担。
相似文章
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
@TheAhmadOsman: 温馨提醒,开始使用本地AI所需的一切就是: - 2x RTX 3090(在r/hardwareswap上花$700-$900入手) -…
提醒一下,两块RTX 3090加上Qwen 3.6 27B或Gemma 4 31B等开源模型,就可以运行强大的本地AI代理,性能堪比Opus 4.5,配合Claude Code、自托管SearXNG等工具使用。
我们真的都能搞定,对吧?双3090配置。
一位用户分享了他们搭建双3090 GPU系统以本地运行Qwen 3.6 27b模型的经验,在切换到Ubuntu并使用带有自定义补丁的club-3090工具后,实现了超过100 tokens/秒的速度。他们对本地AI的未来感到兴奋。
@gippp69: 这位用户看到一张430美元的AI账单,于是干脆在桌下自己搭了个AI实验室 RTX 5090 + RTX 4090, 56GB VRAM, 128GB RAM, …
一位用户在桌下搭建了一个私人AI实验室,使用RTX 5090和RTX 4090显卡,运行Qwen、DeepSeek、Llama等本地开源模型,以避免API费用。
如果你有15万美元预算,要搭建一个服务300人的生产级本地推理服务器,你会买什么?
一位用户寻求建议,希望以低于15万美元的价格购买一台故障转移推理服务器,用于服务300人,讨论了使用二手H100、RTX Pro 6000和DGX Station等选项来运行vLLM上的122b AWQ模型。