家用 LLM 服务器选 Strix Halo 还是 DGX Spark?
摘要
用户在搭建可通过局域网访问的本地 LLM 服务器时,寻求关于选择 AMD Strix Halo 还是 Nvidia DGX Spark 硬件的建议。
我目前正纠结于在 AMD Strix Halo(128 GB 内存的 AMD Ryzen AI Max+ 395 Framework Desktop)和 Nvidia DGX Spark(Asus Ascent GX10)之间做决定,用于搭建一台可通过本地网络访问的家庭 LLM 服务器,该服务器可在网页浏览器中以类 ChatGPT 界面进行访问。
请留意我是这方面的新手,我之前唯一的本地 LLM 经验是在单台机器上使用 LM Studio,从未做过网络托管。Framework Desktop 售价 3,388 美元,而 Asus Ascent GX10 售价 3,500 美元。如果 GX10 在实际推理速度上更快,我愿意承担这笔差价。
我计划使用 Q4_K_M 或 Q6_K 量化,以保证质量的同时不浪费速度和内存,因为我听说这两者是最佳平衡点。我希望尽可能快地运行以下模型,并支持长上下文(128K 及以上):Gemma 4 31B、Gemma 4 26B、A4B、Qwen 3.6 27B、Qwen 3.6 35B、A3B、GPT OSS 120B。
我看过很多 DGX Spark 的评测,但奇怪的是似乎没有一个将其推理速度与 Strix Halo 进行比较。两者在实际性能上有何区别?随着上下文增加会有变化吗?
我的计划用途如下:
网络搜索与事实核查
文档/文件摘要与事实查找
逻辑推理与问题解决
日常对话
图像识别
本质上,就像是一个私有且可控版的 ChatGPT,所谓的“ChatGPT Lite”。
我明白这些模型的智能水平或能力可能不如 GPT 5.5,但我希望借助这种级别的硬件尽可能接近,而不愿等待太久才能得到模型的回复。
在界面方面,我考虑使用 Open WebUI,因为其具有类 ChatGPT 界面和多用户支持功能,可以区分不同家庭成员的聊天内容,但我也可以接受其他方案。我不太确定如何实现高质量的网页搜索和文件阅读功能。
对于连接 Open WebUI 的 LLM 运行引擎,我考虑使用 LM Studio 或 llama.cpp。我想要一个图形界面来配置模型设置,如上下文长度、GPU 卸载、温度、随机种子等,而不必为了测试设置更改而在命令行中折腾。
最后,我计划使用 Ubuntu 作为操作系统。
请告知您是否有任何建议、改进意见或想法。我绝非专家,这只是我自己想的方案。谢谢!
相似文章
HIPfire 是否值得用于 Strix Halo?
本文征求社区对 HIPfire 在 AMD Strix Halo 硬件上的性能和质量评估,特别是与 llama.cpp 相比的长上下文支持情况。
如何在 AMD Strix Halo 及其他非主流 AMD 硬件上微调大语言模型 (LLMs)
本文提供了在 AMD Strix Halo 硬件上使用监督微调 (SFT) 和 LoRA 方法微调大语言模型 (LLMs) 的教程,涵盖 Linux 及原生 Windows 环境。
高端私有本地 LLM 方案真的值得吗?
一位用户在纠结,投入 5×3090 GPU 的高端本地 LLM 配置,能否在保障数据隐私的同时,追平 Claude 或 GPT 等云端服务。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。
@Michaelzsguo: 两天前,我询问是否应该购买 Mac Studio 用于本地运行 LLM。我由衷地感叹收到的反馈如此优质且丰…
作者分享了一份针对本地运行大语言模型(LLM)的硬件购买指南,综合了社区反馈,对比了 Mac Studio、NVIDIA 和 AMD 的选项。