开源了一个面向生产环境的语音助手全栈启动模板(Web端和电话端共用一个worker)

Reddit r/AI_Agents 工具

摘要

开源了一个基于LiveKit、FastAPI和React的全栈生产级语音助手启动模板,通过单一代码路径同时处理Web和电话端,可使用Docker Compose一键部署。

大多数语音助手教程都止步于"这是一个能回话的脚本。" 从演示到生产环境之间的差距在于围绕它的一切:生成房间令牌、真正的客户端、电话集成、部署、测试。我一直在重建这些,所以我将其打包成一个开源启动模板(MIT许可)。它是一个基于LiveKit的语音助手,分为三个部分:语音工作器(STT→LLM→TTS,带有语音端点检测)、一个FastAPI令牌服务器,以及一个带有实时转录和文本聊天的React客户端。我最满意的部分是:Web和SIP(电话)呼叫通过同一个参与者分支访问同一个助手,因此你不需要为"在浏览器中对话"和"拨打号码"维护两条代码路径。你可以通过添加功能工具或将任务移交来扩展助手,并且提供商是可切换的。Docker Compose用一个命令运行整个技术栈。对于那些已经部署过语音助手的人:从演示到生产环境之间的差距在哪里最让你头疼?我希望这个启动模板能覆盖真正的痛点,而不仅仅是顺风顺水的情况。
查看原文

相似文章

OpenAI 如何实现大规模低延迟语音 AI 部署

OpenAI Blog

OpenAI 详细介绍了其重新架构的 WebRTC 技术栈,旨在为超过 9 亿用户提供大规模低延迟语音 AI 服务。文章阐述了全新的 split-relay 和 transceiver 架构如何优化媒体路由与连接建立,以支持 ChatGPT 语音等实时交互场景。

jamiepine/voicebox

GitHub Trending (daily)

Voicebox 是一个开源的、本地优先的 AI 语音工作室,支持语音克隆、语音生成、听写和 AI 代理集成,提供隐私保护和多引擎 TTS 支持。