vaibhavs10/incredibly-fast-whisper
摘要
一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。
vaibhavs10 / incredibly-fast-whisper
查看缓存全文
缓存时间: 2026/05/08 06:25
# Fast Whisper:在 Replicate 上实现高速转录
来源:https://replicate.com/vaibhavs10/incredibly-fast-whisper
## 极速 Whisper
由 🤗*Transformers*、*Optimum* 和 *flash-attn* 驱动
**TL;DR** — 用 OpenAI 的 Whisper Large v3(https://huggingface.co/openai/whisper-large-v3)在 100 秒内转录 150 分钟的音频。闪电般的转录速度现已成真!⚡️
优化类型转录时间(150 分钟音频)Transformers(`fp32`)约 31(*31 分 1 秒*)Transformers(`fp16`+`batching [24]`+`bettertransformer`)约 5(*5 分 2 秒*)**Transformers(`fp16`+`batching [24]`+`Flash Attention 2`)**约 2(*1 分 38 秒*)distil-whisper(`fp16`+`batching [24]`+`bettertransformer`)约 3(*3 分 16 秒*)**distil-whisper(`fp16`+`batching [24]`+`Flash Attention 2`)**约 1(*1 分 18 秒*)Faster Whisper(`fp16`+`beam_size [1]`)约 9.23(*9 分 23 秒*)Faster Whisper(`8-bit`+`beam_size [1]`)约 8(*8 分 15 秒*)
模型创建时间超过 1 年前
相似文章
Whisper 介绍
OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。
@tom_doerr: 以70倍实时速度转录音频 https://github.com/m-bain/whisperX
WhisperX是一个用于快速自动语音识别的工具,提供词级时间戳和说话人分离,使用Whisper large-v2实现70倍实时转录。
如果应用需要实时语音转文字,Whisper 是否仍是最佳默认选择?
探讨在考虑替代方案和性能权衡的情况下,OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。
@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20…
推荐使用Qwen3-ASR替代Whisper以减少幻觉,使用LattifAI工具进行精确的音文本对齐和字幕生成,并介绍自己的OmniVAD-Kit项目用于语音活动检测。
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。