标签
Koval 是一个面向语音智能体的模拟与可观测性平台,帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力,以及语音 AI 与自动驾驶在架构上的相似性。
EdgeSpeak 桌面端语音转录工具正式上线,搭载本地 Lattice-2 语音大模型,支持离线音视频转录、多种语言和口音,并提供本地 API 接口以便开发者集成。
本文分享了构建实时语音AI代理的宝贵经验,强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。
Andrew Ng宣布了一门新课程,关于使用VocalBridge为AI智能体添加语音功能,由其CEO授课。课程涵盖三种集成模式和评估技术,用于构建可靠且低延迟的语音应用。
本文分享了让语音AI代理听起来更像人类的关键提示习惯,包括大声朗读提示、明确使用填充词、展示示例而非说明、处理特殊字符,以及允许代理说不知道。
一位开发者使用ESP32微控制器、MacBook、用于实时音乐生成的Magenta Realtime 2、用于转录的MLX Whisper,以及用于工具调用的Qwen模型,构建了一个本地语音控制的音乐系统,实现了对音乐元素(如流派和乐器)的对话式控制。
一个包含50多个动手AI工程教程的合集,涵盖AI智能体、RAG、MCP、OCR、语音AI等,已开源,获得1000+ GitHub星标。
Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。
一位从业者认为,在 AI 辅导系统中,语音启动延迟才是关键因素,而非模型的选择。他建议将语音启动延迟控制在 1 秒以内,并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路,并指出延迟叠加最严重的环节。
ElevenLabs 引入了呼叫您的 Hermes Agent 的功能,通过他们的平台实现与AI代理的语音交互。
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
一款开放权重的8B参数语音模型仅需110毫秒延迟,比人类平均对话延迟200-250毫秒更快。它可以在本地运行,并通过GitHub仓库免费获取。
由前高盛和Meta员工创立的AethexAI筹集了300万美元,为非洲和中东市场打造语音AI,使用小模型降低延迟,并推出带有API和SDK的平台。
集成语音AI与VICIdial的文档,展示了现有的拨号器基础设施可以与AI语音代理一起使用,而无需完全替换。