21款GPU运行小型TTS模型基准测试（显存峰值：5GB）

Reddit r/LocalLLaMA 2026/05/18 21:46 新闻

gpu-benchmark tts voice-cloning omni-voice inference consumer-gpus

摘要

一位用户在vast.ai上对21款消费级GPU进行了基准测试，运行小型TTS模型（OmniVoice），显存峰值5GB，比较了相对于实时速度和RTX 3090的性能。

我在vast.ai上租用了不同的GPU，每块使用几分钟，对一个小型TTS模型OmniVoice进行基准测试，该模型显存峰值约5GB。我想测试各种主流消费级GPU与我自己的RTX 3090相比表现如何。这绝不是一次广泛或科学性的分析，但我认为它大致能体现这些GPU之间的相对性能。xRT表示实时倍数，即GPU生成音频比实时快多少。在提供参考音频的情况下，对一个小段落进行3次平均测试（声音克隆）。

查看原文

相似文章

在6GB RTX 4050上对20个小LLM的基准测试

Reddit r/LocalLLaMA

对20个为6GB GPU量化的小LLM的详细基准测试，测量了不同上下文长度下的速度和VRAM使用情况，并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。

在Strix Halo、RTX 3090和RTX 5070上运行相同模型，只为获得自己的数据

Reddit r/LocalLLaMA

作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端，进行了55次推理基准测试。结果揭示，显存带宽主导解码速度，RTX 5070在小模型上击败RTX 3090，而推理模型因隐藏的推理内容看起来慢约5倍。

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA

一位用户在12GB的RTX 3060上对Qwen 35B-A3B（一个35B参数的MoE模型）进行了基准测试，发现12GB显存是运行该模型并支持32k上下文时的实用甜点区，生成速度可达约47 token/秒。

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果，显示根据模型大小和量化水平，速度提升了 1.6 到 6 倍。

@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

X AI KOLs Timeline

一种名为 luce spark 的技术让 Qwen 35B-a3B MoE 模型能够在16GB GPU（如RTX 3090）上运行，通过学习哪些专家被频繁使用，并将其余专家从内存流式加载，实现约100 tok/s，且不受显存瓶颈限制。

相似文章

在6GB RTX 4050上对20个小LLM的基准测试

在Strix Halo、RTX 3090和RTX 5070上运行相同模型，只为获得自己的数据

Qwen 35B-A3B 在 12GB 显存下非常可用。

RTX Pro 4500 Blackwell 性能实测

@sudoingX: 那些用16GB显卡的，别再滑了。@pupposandro 和 @davideciffa 把 qwen 35b-a3b 压缩到13.3GB，在……上实测

提交意见反馈