Whisper 介绍

OpenAI Blog 模型

摘要

OpenAI 推出 Whisper,这是一个端到端的编码器-解码器 Transformer 模型,在大规模多样化音频数据上进行训练,可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%,并且在语音翻译方面优于有监督基准,尽管未针对特定数据集进行微调。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 介绍 Whisper 来源:https://openai.com/index/whisper/ Whisper 架构是一个简单的端到端方法,以编码器-解码器 Transformer 的形式实现。输入音频被分成 30 秒的块,转换为对数梅尔频谱图,然后传入编码器。解码器经过训练可以预测相应的文本标题,并混合使用特殊令牌来指导单个模型执行多个任务,例如语言识别、短语级时间戳、多语言语音转录和英文翻译。 其他现有方法通常使用较小的、配对紧密的音频文本训练数据集¹²³,或使用范围广泛但无监督的音频预训练⁴⁵⁶。由于 Whisper 在大规模且多样化的数据集上进行训练,且未针对任何特定数据集进行微调,它在 LibriSpeech 这一著名的语音识别基准上的性能不如专业模型。但是,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它的鲁棒性要强得多,错误率比这些模型少 50%。 Whisper 的音频数据集中约三分之一是非英文的,它被交替地分配了用原始语言进行转录或翻译成英文的任务。我们发现这种方法特别有效地学习语音到文本的翻译,在 CoVoST2 英文翻译零样本任务上的性能优于监督型最先进水平。

相似文章

vaibhavs10/incredibly-fast-whisper

Replicate Explore

一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。

ChatGPT 和 Whisper API 发布

OpenAI Blog

OpenAI 发布了面向开发者的 ChatGPT(GPT-3.5 Turbo)和 Whisper API,自去年12月以来成本降低了90%,支持集成到第三方应用。公告包括来自 Snap、Quizlet、Instacart、Shop 和 Speak 等早期采用者的案例。

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

在API中引入下一代音频模型

OpenAI Blog

OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。