家用 LLM 服务器选 Strix Halo 还是 DGX Spark?

Reddit r/LocalLLaMA 新闻

摘要

用户在搭建可通过局域网访问的本地 LLM 服务器时,寻求关于选择 AMD Strix Halo 还是 Nvidia DGX Spark 硬件的建议。

我目前正纠结于在 AMD Strix Halo(128 GB 内存的 AMD Ryzen AI Max+ 395 Framework Desktop)和 Nvidia DGX Spark(Asus Ascent GX10)之间做决定,用于搭建一台可通过本地网络访问的家庭 LLM 服务器,该服务器可在网页浏览器中以类 ChatGPT 界面进行访问。 请留意我是这方面的新手,我之前唯一的本地 LLM 经验是在单台机器上使用 LM Studio,从未做过网络托管。Framework Desktop 售价 3,388 美元,而 Asus Ascent GX10 售价 3,500 美元。如果 GX10 在实际推理速度上更快,我愿意承担这笔差价。 我计划使用 Q4_K_M 或 Q6_K 量化,以保证质量的同时不浪费速度和内存,因为我听说这两者是最佳平衡点。我希望尽可能快地运行以下模型,并支持长上下文(128K 及以上):Gemma 4 31B、Gemma 4 26B、A4B、Qwen 3.6 27B、Qwen 3.6 35B、A3B、GPT OSS 120B。 我看过很多 DGX Spark 的评测,但奇怪的是似乎没有一个将其推理速度与 Strix Halo 进行比较。两者在实际性能上有何区别?随着上下文增加会有变化吗? 我的计划用途如下: 网络搜索与事实核查 文档/文件摘要与事实查找 逻辑推理与问题解决 日常对话 图像识别 本质上,就像是一个私有且可控版的 ChatGPT,所谓的“ChatGPT Lite”。 我明白这些模型的智能水平或能力可能不如 GPT 5.5,但我希望借助这种级别的硬件尽可能接近,而不愿等待太久才能得到模型的回复。 在界面方面,我考虑使用 Open WebUI,因为其具有类 ChatGPT 界面和多用户支持功能,可以区分不同家庭成员的聊天内容,但我也可以接受其他方案。我不太确定如何实现高质量的网页搜索和文件阅读功能。 对于连接 Open WebUI 的 LLM 运行引擎,我考虑使用 LM Studio 或 llama.cpp。我想要一个图形界面来配置模型设置,如上下文长度、GPU 卸载、温度、随机种子等,而不必为了测试设置更改而在命令行中折腾。 最后,我计划使用 Ubuntu 作为操作系统。 请告知您是否有任何建议、改进意见或想法。我绝非专家,这只是我自己想的方案。谢谢!
查看原文

相似文章

HIPfire 是否值得用于 Strix Halo?

Reddit r/LocalLLaMA

本文征求社区对 HIPfire 在 AMD Strix Halo 硬件上的性能和质量评估,特别是与 llama.cpp 相比的长上下文支持情况。