如果应用需要实时语音转文字,Whisper 是否仍是最佳默认选择?

Reddit r/AI_Agents 新闻

摘要

探讨在考虑替代方案和性能权衡的情况下,OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。

暂无内容
查看原文

相似文章

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。

vaibhavs10/incredibly-fast-whisper

Replicate Explore

一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。

ChatGPT 和 Whisper API 发布

OpenAI Blog

OpenAI 发布了面向开发者的 ChatGPT(GPT-3.5 Turbo)和 Whisper API,自去年12月以来成本降低了90%,支持集成到第三方应用。公告包括来自 Snap、Quizlet、Instacart、Shop 和 Speak 等早期采用者的案例。

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。