@CopyRebeldia: 每月向你收费，把你的会议变成摘要的业务今天非常糟糕。微软发布了…

X AI KOLs Timeline 2026/06/08 03:29 模型

microsoft audio-processing transcription open-source vibe-voice meeting-summarization free

摘要

微软发布了VibeVoice开源模型，可一次性处理一整小时的音频，并返回带有说话人识别和时间戳的结构化文本，颠覆了付费转录服务。

那个每月收费帮你把会议内容变成摘要的业务今天遭遇了重创。微软在GitHub上免费发布了一个模型，它能够一口气吞下一整小时的音频，然后工整地吐出来：这个人说了什么，在12分钟处说的，那个人在34分钟处说的。谁、什么时候、说了什么。无需切分音频。无需有人熬夜转录。半个靠这种苦活谋生的行业今天都沉默地盯着这个仓库。这个模型叫VibeVoice。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:48

那个每月向你收费、把你的会议转成摘要的生意，今天日子很不好过。

微软在 GitHub 上免费发布了一个模型，能一次性吞下整整一小时的音频，然后清晰地吐出来：这个人第12分钟说了什么，那个人第34分钟说了什么。谁、什么时候、说了什么。

不用切分音频，不用让人熬夜转录。

半个靠这种苦差事吃饭的行业，今天盯着这个代码库一言不发。

它叫VibeVoice。

相似文章

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

@CopyRebeldia: 每月向你收费，把你的会议变成摘要的业务今天非常糟糕。微软发布了…

相似文章

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

VibeVoice 技术报告

@tom_doerr：完全在本地捕获、转录和总结会议 https://github.com/Zackriya-Solutions/meeting-minutes…

@tom_doerr: 以70倍实时速度转录音频 https://github.com/m-bain/whisperX

@dhaber: https://x.com/dhaber/status/2064711613714735141

提交意见反馈