vaibhavs10/incredibly-fast-whisper

Replicate Explore 模型

摘要

一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。

vaibhavs10 / incredibly-fast-whisper
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:25

# Fast Whisper:在 Replicate 上实现高速转录 来源:https://replicate.com/vaibhavs10/incredibly-fast-whisper ## 极速 Whisper 由 🤗*Transformers*、*Optimum* 和 *flash-attn* 驱动 **TL;DR** — 用 OpenAI 的 Whisper Large v3(https://huggingface.co/openai/whisper-large-v3)在 100 秒内转录 150 分钟的音频。闪电般的转录速度现已成真!⚡️ 优化类型转录时间(150 分钟音频)Transformers(`fp32`)约 31(*31 分 1 秒*)Transformers(`fp16`+`batching [24]`+`bettertransformer`)约 5(*5 分 2 秒*)**Transformers(`fp16`+`batching [24]`+`Flash Attention 2`)**约 2(*1 分 38 秒*)distil-whisper(`fp16`+`batching [24]`+`bettertransformer`)约 3(*3 分 16 秒*)**distil-whisper(`fp16`+`batching [24]`+`Flash Attention 2`)**约 1(*1 分 18 秒*)Faster Whisper(`fp16`+`beam_size [1]`)约 9.23(*9 分 23 秒*)Faster Whisper(`8-bit`+`beam_size [1]`)约 8(*8 分 15 秒*) 模型创建时间超过 1 年前

相似文章

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。