gpu-comparison

#gpu-comparison

我比较了这里使用的主要GPU/机器的所有规格，因为带宽不是一切。你们有些人需要认清现实。

Reddit r/LocalLLaMA ↗ · 2026-05-30

作者比较了用于LLM推理的各种GPU，批判了常见的基准测试，并强调了预填充性能比生成速度更重要，针对不同预算和使用场景给出了建议。

0 人收藏 0 人点赞

#gpu-comparison

Reddit r/LocalLLaMA ↗ · 2026-05-16

作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端，进行了55次推理基准测试。结果揭示，显存带宽主导解码速度，RTX 5070在小模型上击败RTX 3090，而推理模型因隐藏的推理内容看起来慢约5倍。

0 人收藏 0 人点赞

#gpu-comparison

Reddit r/LocalLLaMA ↗ · 2026-05-14

一位用户报告称，在使用相同模型和设置的情况下，llama.cpp 的 ROCm 后端比 Vulkan 后端消耗的 KV 缓存显存显著更多，这引发了对其潜在原因的探究。

0 人收藏 0 人点赞