标签
5月份,语音AI领域融资额超过18亿美元,其中Sierra的9.25亿美元和Hark的7亿美元融资轮次领跑。同时,ElevenLabs推出了用于音乐生成和配音的新模型,增强了控制功能。本简报还重点介绍了医疗领域的交易和印度不断增长的语音市场。
本文评估了四个领先的实时语音AI系统(GPT Realtime 2、Gemini 3.1 Flash Live、Qwen3.5 Omni Plus、Omni Flash),发现它们始终根据词语而非语气采取行动,即使能够感知到痛苦、恐惧或讽刺也忽略不计——这被称为语音AI的“情商鸿沟”。
Koval 是一个面向语音智能体的模拟与可观测性平台,帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力,以及语音 AI 与自动驾驶在架构上的相似性。
Coval,一家专注于语音 AI 智能体模拟与评估的初创公司,完成了由 Norwest Venture Partners 领投的 2800 万美元 A 轮融资。
EdgeSpeak 桌面端语音转录工具正式上线,搭载本地 Lattice-2 语音大模型,支持离线音视频转录、多种语言和口音,并提供本地 API 接口以便开发者集成。
本文分享了构建实时语音AI代理的宝贵经验,强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。
Andrew Ng宣布了一门新课程,关于使用VocalBridge为AI智能体添加语音功能,由其CEO授课。课程涵盖三种集成模式和评估技术,用于构建可靠且低延迟的语音应用。
本文分享了让语音AI代理听起来更像人类的关键提示习惯,包括大声朗读提示、明确使用填充词、展示示例而非说明、处理特殊字符,以及允许代理说不知道。
一位开发者使用ESP32微控制器、MacBook、用于实时音乐生成的Magenta Realtime 2、用于转录的MLX Whisper,以及用于工具调用的Qwen模型,构建了一个本地语音控制的音乐系统,实现了对音乐元素(如流派和乐器)的对话式控制。
一个包含50多个动手AI工程教程的合集,涵盖AI智能体、RAG、MCP、OCR、语音AI等,已开源,获得1000+ GitHub星标。
Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。
一位从业者认为,在 AI 辅导系统中,语音启动延迟才是关键因素,而非模型的选择。他建议将语音启动延迟控制在 1 秒以内,并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路,并指出延迟叠加最严重的环节。
ElevenLabs 引入了呼叫您的 Hermes Agent 的功能,通过他们的平台实现与AI代理的语音交互。
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
一款开放权重的8B参数语音模型仅需110毫秒延迟,比人类平均对话延迟200-250毫秒更快。它可以在本地运行,并通过GitHub仓库免费获取。