标签
微软发布了 MAI-Voice-2,这是一款支持 15 种语言语音克隆的表现力丰富的文本转语音系统。
Ax 是一个 JS/TS 库,为 LLM 使用提供高层抽象(签名、智能体、工作流、优化器)。现在引入了 axIR,可以编译成 Python、Java、C++ 和 Go,将相同的编程模型带到多种语言中。
KrillinAI 是一款开源工具,整合了视频下载、字幕翻译、AI配音、视频合成全流程,支持上下文感知翻译、语音克隆、自动布局和封面生成,兼容多种AI模型,适合多语言音视频内容创作与分发。
推荐基于PySide6和ElevenLabs API的开源语音转字幕工具Scribe2SRT,支持多语言并优化排版,快速生成高质量SRT字幕。
FindMyAI是一个免费的AI搜索引擎,无需注册即可推荐最适合任何任务的AI工具,支持18种语言,旨在帮助用户快速找到合适的AI工具。
Supertonic is a lightning-fast, on-device TTS model with 99M parameters, supporting 31 languages. It runs locally with no API costs, outperforms cloud TTS on accuracy for numbers, phone numbers, and technical terms, and can be installed via Python, Node.js, Rust, Go, and more.
OpenAI Codex 是 GPT-3 的后代,在自然语言和数十亿行源代码上训练,能够跨 15 种以上编程语言生成可运行代码,具有比 GPT-3 多 3.5 倍的上下文内存,现已通过 API 以私密测试版形式提供。
OpenAI在Build Hour中发布了GPT Realtime-2及两个配套模型,增强了语音交互的智能性和自然度,支持128k上下文、并行工具调用和动态语音克隆,展示了语音驱动的购物助手和分析仪表盘等生产级应用。