本月语音AI重磅交易盘点
摘要
5月份,语音AI领域融资额超过18亿美元,其中Sierra的9.25亿美元和Hark的7亿美元融资轮次领跑。同时,ElevenLabs推出了用于音乐生成和配音的新模型,增强了控制功能。本简报还重点介绍了医疗领域的交易和印度不断增长的语音市场。
暂无内容
查看缓存全文
缓存时间: 2026/06/26 04:06
# #22:来点重磅融资吗?
五月是语音AI相关融资的一个奇怪月份。交易数量明显减少,但几笔巨额交易将其推向了今年融资排行榜的榜首,超过18亿美元涌入与语音相关的初创公司。

其中两笔交易格外引人注目:Sierra 的 9.25 亿美元融资,以及 Hark 为其秘密产品进行的 7 亿美元“种子轮”融资。
Sierra 的融资与前几个月关于客户支持和体验初创公司需求上升的信号一致。该公司在本轮融资中估值达到 150 亿美元,并已为 50% 的财富 50 强企业提供服务。
Hark 的融资之所以令人好奇,是因为投资者押注于未来的潜力。我们尚未找到一种完美的个人助理模式,但这个想法值得追求。
Vapi 的 5000 万美元交易是本月纯粹的语音 AI 玩法,该公司估值达到 5 亿美元。这家初创公司表示,现在每天处理 100 万到 500 万通电话。
从行业来看,医疗保健是一个强势领域,Commure、Basata、Enzo Health 和 Kin Health 的交易总额超过 1.2 亿美元。
印度是一个巨大的语音市场,这在孟买科技周的演示中显而易见。Urban Company 和 Meesho 等公司展示了面向客户的语音解决方案,用于支持和商品发现等场景。虽然我没有参加第二天,但印度 AI 初创公司 Sarvam 原定演示其自身技术。甚至马哈拉施特拉邦政府也讨论了在其面向农民的 AI 应用中使用马拉地语进行语音对话。
一些与我交流过的人提到,当他们接到 AI 打来的电话时,体验并不好。他们知道电话那头是 AI,这反而对他们不利。在某些情况下,对话也不够自然。
在一次与我同台的对话中,负责统一支付接口(UPI)标准的印度国家支付公司(NPCI)负责人 Dilip Asbe 提到,虽然技术可以成为吸引用户的有效界面,但支付机构仍在确定正确的用例,部署语音还为时过早。这意味着,无论是在企业端还是 AI 端,要想用语音 AI 有效吸引用户,还有很多工作要做。
ElevenLabs 本周推出了两个新模型:一个名为 Music v2 的新音乐生成模型,以及一个名为 Dubbing v2 的配音模型。两者的共同重点是为输出带来更多深度,并赋予创作者更多控制权。
音乐模型的最大特点是能够在歌曲中间切换流派。对于专业用户,该公司增强了对歌曲结构以及主歌、副歌、桥段等构建块的理解。
这使得可以通过结构提示创建音轨,而不是手动拼接短视频片段。最新模型还允许用户选择歌曲的特定部分,并通过提示对其进行更改,而不影响歌曲的其余部分。
ElevenLabs 表示,Dubbing v2 模型支持超过 90 种语言,同时保留原说话者的语调和情感。
该公司在此次发布中也采取了商业举措。首先,它邀请创作者以折扣价试用配音产品。其次,对于工作室和广播公司,它正在与人工翻译、专家配音和专业的音频混音专家合作,提供本地化服务。更像是“前向部署的创作者”。
虽然 ElevenLabs 的大部分收入仍来自其企业业务,但该公司确保在创作过程中扮演重要角色。该公司在音乐领域与 Google、Suno 和 Stability AI 等公司竞争,但也在覆盖其他工作流程,例如配音。
- 根据 The Information 的一份报告,Meta 正在打造一款语音录音挂件。但这并不令人惊讶,因为该公司收购了同样制造挂件的 Limitless。问题是:这会让人们信任 Meta 制造的挂件吗?
- 模型理解某人语音的关键因素之一是将语音从噪音中分离出来。硬件公司 BlueParrot 为长途卡车司机推出了两款新耳机,这些耳机使用语音来消除司机驾驶时听到的噪音。[](https://substackcdn.com/image/fetch/$s_!dhU_!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff86807e1-9005-4fb4-9aab-e18e7f1a8c11_400x400.jpeg)图片来源:BlueParrot
- 在韩国,一起重大案件浮出水面,一名 YouTuber 被指控使用 AI 操纵一位电影明星的短信和语音录音,以诽谤他,并指控他在一位女演员未成年时与其约会。未来,我们可能会看到几乎像电视剧和电影一样的案件,语音和视频操纵可能是关键因素。
- 伦敦公司 Voxmind 为其语音深度伪造检测技术筹集了约 73.4 万美元。这笔资金规模不大,但技术至关重要,尤其是对企业而言。这家初创公司正进入一个领域,像 AWS 这样的公司正在退出其身份识别服务,从而创造了一个良好的机会。
- 索尼扩大了对音乐 AI 公司 Suno 和 Udio 的诉讼。该唱片公司向 Suno 案中增加了 61,026 首歌曲,将赔偿上限提高到超过 90 亿美元。它还向 Udio 案中增加了超过 30,000 首歌曲。
本周我在中国考察新设备,特别想看看这些设备中 AI 的应用程度。我还没看到任何演示,但对我所住酒店的这个机器人很着迷,它可以在无需人工干预的情况下将小件物品和一些食物送到房间。这很酷,因为它解决了“我们现在没有可用员工”的问题。也可能让工作人员多休息一下。
[](https://substackcdn.com/image/fetch/$s_!Vhfd!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7b695869-c1cf-4ec0-b0bf-3eca05cd8955_4032x3024.jpeg)图片来源:Ivan Mehta
这也是测试翻译技术的好地方,尤其是涉及实时语音和文本翻译时。
在与 a16z 的对谈中,ElevenLabs 首席执行官 Mati Staniszewski 谈到他和联合创始人 Piotr Dabkowski 是如何从解决糟糕的配音电影中获得灵感,并创建了这家认为语音是人机交互新界面的公司。
*赞助内容*
感谢收听。请继续关注。
*本通讯由 Ivan Mehta(TechCrunch 自由记者)撰写。内容涵盖语音、音频和音乐领域的 AI 与技术。*
*邮箱:[email protected] 或 [email protected]*
#### 关于本篇文章的讨论
### 准备好了解更多?
相似文章
AI行业周报 — Anthropic近万亿美元IPO申请,微软Autopilot智能体,谷歌大幅下调Gemini定价(2026年6月)
AI行业每周回顾,涵盖重大动态:Anthropic近万亿美元IPO申请,收入470亿美元;微软推出持续运行Autopilot智能体和新MAI模型;谷歌发布Gemini 3.5 Flash并降价;Mistral更名为Vibe;SpaceX收购xAI;阿里巴巴发布Qwen3.7-Plus;Hugging Face上市;AI投资额创纪录。
@nikhilro_:今天,@vapi_ai宣布完成由@peakxvpartners领投的5000万美元B轮融资,总融资额达7200万美元。本轮融资实际上是……
Vapi_ai宣布完成由Peak XV Partners领投的5000万美元B轮融资,总融资额达7200万美元,重点在于AI语音通话的工程能力。
@gkxspace: 我每月 AI 订阅两三千,其中有些是TTS、ASR之类的,主流的几家都挺贵,API协议也都不一样 我一直在想有没有可以一个套餐做到: 语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码 可算找到了一个活菩萨,阶跃星辰的 S…
阶跃星辰推出Step Plan订阅服务,月费6.99美元,整合了LLM、TTS、ASR、图像生成等多种AI模型,支持OpenAI SDK直连,可用于语音复刻、会议转写、AI播客生成等场景。
加速AI下一阶段
OpenAI完成了1220亿美元的融资轮,估值达到8520亿美元,成为最快达到10亿周活跃用户的技术平台,并在2024年底实现了20亿美元的月收入。该轮融资由Amazon、NVIDIA和SoftBank领投,多家全球主要机构和个人投资者参与。
2026年哪款AI电话代理真正在创造销售额?(LuMay Voice Agent vs Voxentis 及其他)
对LuMay Voice Agent和Voxentis等AI电话代理在外呼销售、线索筛选和预约安排方面的评估,重点关注实际性能指标和投资回报率。