@CopyRebeldia: 每月向你收费,把你的会议变成摘要的业务今天非常糟糕。微软发布了…
摘要
微软发布了VibeVoice开源模型,可一次性处理一整小时的音频,并返回带有说话人识别和时间戳的结构化文本,颠覆了付费转录服务。
查看缓存全文
缓存时间: 2026/06/09 08:48
那个每月向你收费、把你的会议转成摘要的生意,今天日子很不好过。
微软在 GitHub 上免费发布了一个模型,能一次性吞下整整一小时的音频,然后清晰地吐出来:这个人第12分钟说了什么,那个人第34分钟说了什么。谁、什么时候、说了什么。
不用切分音频,不用让人熬夜转录。
半个靠这种苦差事吃饭的行业,今天盯着这个代码库一言不发。
它叫VibeVoice。
相似文章
@uniswap12: 微软开源了一个语音 AI,60 分钟长音频一次转写,4 个人同时说话都能搞定 VibeVoice,微软开源,24.8k star,今天才知道这个。录音一键转文字这件事,我之前一直用 Whisper,但它处理长会议录音经常超时,多人说话识别…
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
VibeVoice 技术报告
VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。
@tom_doerr:完全在本地捕获、转录和总结会议 https://github.com/Zackriya-Solutions/meeting-minutes…
Meetily 是一款以隐私为先、开源的 AI 会议助手,能够完全在用户的基础设施上本地捕获、转录和总结会议。
@tom_doerr: 以70倍实时速度转录音频 https://github.com/m-bain/whisperX
WhisperX是一个用于快速自动语音识别的工具,提供词级时间戳和说话人分离,使用Whisper large-v2实现70倍实时转录。
@dhaber: https://x.com/dhaber/status/2064711613714735141
文章认为,记录所有工作场所的对话正成为常态,这是由AI对上下文的需求以及为个人和领导者带来的生产力优势所驱动的。它预测将出现一类围绕语音数据组织的新型企业软件,AI通过参加会议来学习公司文化。