vaibhavs10/incredibly-fast-whisper
摘要
一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。
查看缓存全文
缓存时间: 2026/05/08 06:25
相似文章
Whisper 介绍
OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。
API 推出全新模型,推动语音智能发展
OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。
ChatGPT 和 Whisper API 发布
OpenAI 发布了面向开发者的 ChatGPT(GPT-3.5 Turbo)和 Whisper API,自去年12月以来成本降低了90%,支持集成到第三方应用。公告包括来自 Snap、Quizlet、Instacart、Shop 和 Speak 等早期采用者的案例。
@kwindla:OpenAI 今天发布了一款新的语音到语音模型:gpt-realtime-2 这是首个足够好的语音到语音模型……
OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。
OpenAI 如何实现大规模低延迟语音 AI 部署
OpenAI 详细介绍了其重新架构的 WebRTC 技术栈,旨在为超过 9 亿用户提供大规模低延迟语音 AI 服务。文章阐述了全新的 split-relay 和 transceiver 架构如何优化媒体路由与连接建立,以支持 ChatGPT 语音等实时交互场景。