21款GPU运行小型TTS模型基准测试(显存峰值:5GB)

Reddit r/LocalLLaMA 新闻

摘要

一位用户在vast.ai上对21款消费级GPU进行了基准测试,运行小型TTS模型(OmniVoice),显存峰值5GB,比较了相对于实时速度和RTX 3090的性能。

我在vast.ai上租用了不同的GPU,每块使用几分钟,对一个小型TTS模型OmniVoice进行基准测试,该模型显存峰值约5GB。我想测试各种主流消费级GPU与我自己的RTX 3090相比表现如何。这绝不是一次广泛或科学性的分析,但我认为它大致能体现这些GPU之间的相对性能。xRT表示实时倍数,即GPU生成音频比实时快多少。在提供参考音频的情况下,对一个小段落进行3次平均测试(声音克隆)。
查看原文

相似文章

在6GB RTX 4050上对20个小LLM的基准测试

Reddit r/LocalLLaMA

对20个为6GB GPU量化的小LLM的详细基准测试,测量了不同上下文长度下的速度和VRAM使用情况,并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA

一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。