vaibhavs10/incredibly-fast-whisper

Replicate Explore 模型

摘要

一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。

vaibhavs10 / incredibly-fast-whisper
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:25

# Fast Whisper:在 Replicate 上实现高速转录 来源:https://replicate.com/vaibhavs10/incredibly-fast-whisper ## 极速 Whisper 由 🤗*Transformers*、*Optimum* 和 *flash-attn* 驱动 **TL;DR** — 用 OpenAI 的 Whisper Large v3(https://huggingface.co/openai/whisper-large-v3)在 100 秒内转录 150 分钟的音频。闪电般的转录速度现已成真!⚡️ 优化类型转录时间(150 分钟音频)Transformers(`fp32`)约 31(*31 分 1 秒*)Transformers(`fp16`+`batching [24]`+`bettertransformer`)约 5(*5 分 2 秒*)**Transformers(`fp16`+`batching [24]`+`Flash Attention 2`)**约 2(*1 分 38 秒*)distil-whisper(`fp16`+`batching [24]`+`bettertransformer`)约 3(*3 分 16 秒*)**distil-whisper(`fp16`+`batching [24]`+`Flash Attention 2`)**约 1(*1 分 18 秒*)Faster Whisper(`fp16`+`beam_size [1]`)约 9.23(*9 分 23 秒*)Faster Whisper(`8-bit`+`beam_size [1]`)约 8(*8 分 15 秒*) 模型创建时间超过 1 年前

相似文章

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

ChatGPT 和 Whisper API 发布

OpenAI Blog

OpenAI 发布了面向开发者的 ChatGPT(GPT-3.5 Turbo)和 Whisper API,自去年12月以来成本降低了90%,支持集成到第三方应用。公告包括来自 Snap、Quizlet、Instacart、Shop 和 Speak 等早期采用者的案例。

OpenAI 如何实现大规模低延迟语音 AI 部署

OpenAI Blog

OpenAI 详细介绍了其重新架构的 WebRTC 技术栈,旨在为超过 9 亿用户提供大规模低延迟语音 AI 服务。文章阐述了全新的 split-relay 和 transceiver 架构如何优化媒体路由与连接建立,以支持 ChatGPT 语音等实时交互场景。