gpu-comparison

标签

Cards List
#gpu-comparison

我比较了这里使用的主要GPU/机器的所有规格,因为带宽不是一切。你们有些人需要认清现实。

Reddit r/LocalLLaMA · 2026-05-30

作者比较了用于LLM推理的各种GPU,批判了常见的基准测试,并强调了预填充性能比生成速度更重要,针对不同预算和使用场景给出了建议。

0 人收藏 0 人点赞
#gpu-comparison

在Strix Halo、RTX 3090和RTX 5070上运行相同模型,只为获得自己的数据

Reddit r/LocalLLaMA · 2026-05-16

作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端,进行了55次推理基准测试。结果揭示,显存带宽主导解码速度,RTX 5070在小模型上击败RTX 3090,而推理模型因隐藏的推理内容看起来慢约5倍。

0 人收藏 0 人点赞
#gpu-comparison

Linux - 为什么 llama.cpp ROCm 的 KV 缓存消耗比 Vulkan 多那么多显存?

Reddit r/LocalLLaMA · 2026-05-14

一位用户报告称,在使用相同模型和设置的情况下,llama.cpp 的 ROCm 后端比 Vulkan 后端消耗的 KV 缓存显存显著更多,这引发了对其潜在原因的探究。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈