标签
5月份,语音AI领域融资额超过18亿美元,其中Sierra的9.25亿美元和Hark的7亿美元融资轮次领跑。同时,ElevenLabs推出了用于音乐生成和配音的新模型,增强了控制功能。本简报还重点介绍了医疗领域的交易和印度不断增长的语音市场。
pyVideoTrans 是一个开源视频翻译工具,支持自动语音识别、字幕翻译、AI 配音和视频合成,集成了多种 ASR、翻译和 TTS 引擎,适合跨语言视频制作和本地化。
像sync.so这样的AI唇同步工具可以重新绘制嘴部动作以匹配配音音频,可能化解长期以来关于配音因嘴部动作不匹配而破坏沉浸感的争论。
Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。