标签
作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端,进行了55次推理基准测试。结果揭示,显存带宽主导解码速度,RTX 5070在小模型上击败RTX 3090,而推理模型因隐藏的推理内容看起来慢约5倍。
DGX Spark与Mac Studio M5 Max在本地运行LLM的对比,重点比较了解码速度、预填充性能、内存、功耗和成本。Mac在解码带宽上胜出,但DGX在预填充方面更快并支持批处理。
用户在搭建可通过局域网访问的本地 LLM 服务器时,寻求关于选择 AMD Strix Halo 还是 Nvidia DGX Spark 硬件的建议。
作者询问2026年中AMD的ROCm生态系统在AI训练领域的当前可行性,将其与NVIDIA的CUDA进行比较,并询问它是否已达到PyTorch的“开箱即用”阶段。