@tom_doerr: 以70倍实时速度转录音频 https://github.com/m-bain/whisperX

X AI KOLs Timeline 2026/06/12 09:41 工具

audio-transcription open-source whisper diarization real-time asr speech-recognition

摘要

WhisperX是一个用于快速自动语音识别的工具，提供词级时间戳和说话人分离，使用Whisper large-v2实现70倍实时转录。

以70倍实时速度转录音频 https://t.co/WXU9HplymF https://t.co/tV9UXQPmPl

查看原文

查看缓存全文

缓存时间: 2026/06/13 01:05

WhisperX

新功能 🚨

设置 ⚙️

使用 💬 (命令行)

技术细节 👷♂️

限制 ⚠️

贡献 🧑🏫

待办 🗓

联系/支持 📇

致谢 🙏

引用

相似文章

vaibhavs10/incredibly-fast-whisper

Replicate Explore

一个高度优化的OpenAI Whisper Large v3版本，使用Transformers、Optimum和Flash Attention 2，能够在Replicate上在2分钟内转录150分钟的音频。

@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…

X AI KOLs Timeline

X-Voice 是一个基于流匹配的多语言文本转语音系统，支持跨30种语言的零样本语音克隆，并提供开源代码、模型及演示。

Whisper 介绍

OpenAI Blog

OpenAI 推出 Whisper，这是一个端到端的编码器-解码器 Transformer 模型，在大规模多样化音频数据上进行训练，可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%，并且在语音翻译方面优于有监督基准，尽管未针对特定数据集进行微调。

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

Coddo 出品的 Whisper Island

Product Hunt

Coddo 出品的 Whisper Island 是一款 macOS 应用，可将语音转录功能直接集成于 Mac 的刘海区域。

相似文章

vaibhavs10/incredibly-fast-whisper

@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…

Whisper 介绍

Coddo 出品的 Whisper Island

提交意见反馈