@CopyRebeldia: 每月向你收费,把你的会议变成摘要的业务今天非常糟糕。微软发布了…

X AI KOLs Timeline 模型

摘要

微软发布了VibeVoice开源模型,可一次性处理一整小时的音频,并返回带有说话人识别和时间戳的结构化文本,颠覆了付费转录服务。

那个每月收费帮你把会议内容变成摘要的业务今天遭遇了重创。 微软在GitHub上免费发布了一个模型,它能够一口气吞下一整小时的音频,然后工整地吐出来:这个人说了什么,在12分钟处说的,那个人在34分钟处说的。谁、什么时候、说了什么。 无需切分音频。无需有人熬夜转录。 半个靠这种苦活谋生的行业今天都沉默地盯着这个仓库。 这个模型叫VibeVoice。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:48

那个每月向你收费、把你的会议转成摘要的生意,今天日子很不好过。

微软在 GitHub 上免费发布了一个模型,能一次性吞下整整一小时的音频,然后清晰地吐出来:这个人第12分钟说了什么,那个人第34分钟说了什么。谁、什么时候、说了什么。

不用切分音频,不用让人熬夜转录。

半个靠这种苦差事吃饭的行业,今天盯着这个代码库一言不发。

它叫VibeVoice。

相似文章

@uniswap12: 微软开源了一个语音 AI,60 分钟长音频一次转写,4 个人同时说话都能搞定 VibeVoice,微软开源,24.8k star,今天才知道这个。录音一键转文字这件事,我之前一直用 Whisper,但它处理长会议录音经常超时,多人说话识别…

X AI KOLs Timeline

微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。

VibeVoice 技术报告

Papers with Code Trending

VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。

@dhaber: https://x.com/dhaber/status/2064711613714735141

X AI KOLs Following

文章认为,记录所有工作场所的对话正成为常态,这是由AI对上下文的需求以及为个人和领导者带来的生产力优势所驱动的。它预测将出现一类围绕语音数据组织的新型企业软件,AI通过参加会议来学习公司文化。