标签
介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。
OpenAI 发布了面向开发者的 ChatGPT(GPT-3.5 Turbo)和 Whisper API,自去年12月以来成本降低了90%,支持集成到第三方应用。公告包括来自 Snap、Quizlet、Instacart、Shop 和 Speak 等早期采用者的案例。
一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。