@svpino:我为两家不同的公司构建了两个语音管道。它们看起来都是这样的:音频 → STT → 清理转录 → ……
摘要
Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。
查看缓存全文
缓存时间: 2026/06/05 15:18
我为两家公司搭建了两套语音管道。
它们长得都差不多:
音频 → 语音转文字 → 清洗后的文本 → NLP → 分类 → 执行动作
这种方式确实能跑通,但有个问题我一直没解决。
每次把音频转成文字,我保留了单词,却丢掉了含义。语气、犹豫、讽刺、重音全都没了。我拿到了文字,却失去了它的灵魂。
@modulate_ai 团队联系了我,向我展示了如何解决这个问题。
Velma 是一个语音模型,一直运行在《使命召唤》和《GTA Online》中,用于实时检测不良言论。
这个模型完全跳过转录文本,直接对原始音频进行处理。这使得模型能够捕捉到其他模型忽略的“隐形线索”。
它能检测多达 150 个其他模型无法察觉的隐形线索!
你可以通过 API 访问 Velma,成本比把音频喂给大语言模型便宜约 10 倍。
如果你想试试,点击这个链接获取 1000 个免费积分:
http://modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago…
感谢团队与我合作发布这篇文章。
Velma API
来源:https://www.modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago
理解每段对话的真实含义
转录会丢弃情感、语气和其他携带着对话真正含义的音频线索。Velma 是一个语音原生模型,它直接聆听音频本身。
Velma 将语音对话转化为你可以采取行动的信号和行为——开箱即用,无需大语言模型。语音 AI 的未来是用 Velma 构建的。
认识 VELMA
音频原生 AI,识别并升级你的风险
VELMA 与众不同之处
转录捕捉词语。Velma 捕捉含义。
词语只是表面。Velma 倾听全貌。
基于词语的转录丢弃了对话的真正含义。Velma 利用声学信号,像人类一样理解对话。
行业标准
转录 + 大语言模型管道
语音信号被丢弃
语气、情感、犹豫、压力、说话人动态、意图、讽刺以及其他更多信息
转录捕捉到的层次
1 层
误解意图和脆弱性
丢失愤怒、沮丧、恐惧、喜悦、讽刺
忽略停顿或独特的表达方式
忽略打断和旁白
欺骗和压力线索
丢失
错过犹豫和声音焦虑
声学真实性
丢失
无法捕捉深度伪造或欺骗
MODULATE 的 VELMA
语音原生 AI
语音信号被分析
语气、情感、意图、节奏、上下文、口音、深度伪造、讽刺、声音生物标记等
VELMA 捕捉到的层次
7 层
行业领先的转录准确度
意图和行为
捕捉到
任何可实时检测的行为
20+ 种情感来自声学信号
音高、节奏、强调、语速
多说话人分割及模式
欺骗和压力线索
捕捉到
声音压力、说谎、胁迫信号
声学真实性
捕捉到
Hugging Face 上 #1 的深度伪造检测
行为
定义对你的业务重要的风险。Velma 在音频中听到它们。
告诉 Velma 什么对你重要——用纯语言编辑任何行为或编写你自己的行为。Velma 利用所有音频信号准确检测它们。
检测代理是否跳过必须项
已保存:未经授权的数据泄露
你也可以上传 SOP、合规文档或操作手册,来精确指定 Velma 应该捕捉什么。
Velma 与行业标准对比
来自更好架构的音频原生能力。
语音原生集合监听模型 (ELM) (https://ensemblelisteningmodel.com/)
转录 + 大语言模型管道
100+ 个专门的子模型,每个针对特定信号或任务优化
没有音频信号的转录文本 + 基于文本的大语言模型
从音频理解情感,而非词语选择。20+ 种情感。
无内置功能。需要单独的 SER 模型。
语气、情感、韵律、节奏、声音压力。
大笑、喊叫、哭泣、喊叫、犹豫、音高、节奏
98.9% 准确率,Hugging Face 上 #1,同一 API 调用
不是功能。单独的模型+管道阶段。
用纯英语描述。Velma 同时使用音频和文本以获得更高准确率。
通过提示工程可能实现,准确度仅限于词语所能揭示的内容。
默认 50 个,再加 100 个模板——欺诈、流失、合规与升级
无。每个都需要提示工程+持续维护。
行业领先,处理重叠和噪声
因系统而异;重叠是常见失败点
即插即用。发送音频,接收结构化 JSON。几行代码。
需要分别管理 STT 和 LLM,再加上自定义逻辑来丰富上下文。
用 Velma 构建
在音频理解之上构建,而非转录
更智能的语音代理
理解语音信号的 AI 代理,提供更好的响应。
AI 语音护栏
监控你的 LLM 语音代理正在说什么——以及呼叫者如何反应。
情感驱动应用
实时个性化每一次交互——根据呼叫者实际感受路由、响应和适应。
对话分析
用更好的对话洞察取代你的 STT/ASR 层。
实时辅导工具
基于通话进展,实时提示代理接下来该说什么的助手。
你能想到的任何事
告诉 Velma 在对话中找到任何内容,它就会做到。你能构建什么,只受限于你能描述什么。
Velma 的定位
你的语音栈的即插即用层
理解层
Velma API
REST + WebSocket
将 Velma 放入任何语音管道。底层模型处理其余部分。
Velma 是对话理解领域的 #1 模型
对话理解基准对比——
准确度 vs. 成本 评估模型识别对话类型、主题、说话人角色和关键行为的能力。方法 ↗ (https://www.modulate.ai/benchmark-methodology)
最高准确度,最低成本
推理成本
准确度分数
velma-2-fast
velma-2
grok-4.1-fast-non-reasoning
grok-4.1-fast-reasoning
gemini-2-flash-lite
deepseek-v3.1
gemini-2-flash
deepseek-v3.2
gemini-3-flash-min
deepseek-r1
gemini-3-flash-med
gemini-2.5-pro
gemini-3-pro
grok-3
nova-3-intelligence
scribe-v2
grok-4-heavy
gpt-5-mini
gpt-5.2-pro
gpt-5.2
1
2
3
4
5
6
7
8
9
10
$0.01
0.02
0.03
0.04
0.05
0.06
0.07
$0.08
$0.10
0.50
1.00
$1.50
0
几分钟内开始使用
即插即用设计——三步,一个 API
发送音频
将 Velma 指向一个文件或实时流——或者连接你已有的平台(Five9、Genesys、Teams、Twilio、SIP)。一个端点,无需搭建管道。
Velma 分析
一个单独的语音原生模型完成所有工作——无需将独立的转录、LLM 或富化服务连接起来并保持同步。
输出,按你喜欢的任何方式
结构化的 JSON——实时流式输出、存入数据仓库或触发告警。由你决定输出到哪。
它真的这么短——流式处理,从头到尾:
# 1 · 打开连接 2 · 流式传输音频 3 · 读取结果
ws = connect(“wss://modulate-developer-apis.com/api/velma-2-streaming?api_key=…”)
ws.send(config) # 要检测什么——或者直接使用默认包
ws.send(audio_chunk) # 流式传输你的音频
foreventinws:# 片段、行为、主题、摘要…
handle(event)
开始用 Velma 构建吧。
获取 API 密钥或尝试 Playground,看看 Velma 如何理解真实对话。
更多来自 Modulate
探索 Modulate 的其他领先语音模型
为实时性能构建的音频原生 API——可直接集成到你的技术栈。
深度伪造检测
合成语音检测,批处理和流式处理。Hugging Face 排行榜 #1。
查看工作原理 (https://www.modulate.ai/api/deepfake-detection-model)
语音转文字
实时和批量转录,带说话人分割。最低成本,最低错误率。
查看工作原理 (https://www.modulate.ai/api/speech-to-text)
PII/PHI 脱敏
自动对转录文本和音频中的敏感内容进行脱敏。合规就绪。
查看工作原理 (https://www.modulate.ai/api/speech-to-text#pii_phi_redaction)
音乐检测
检测任何音频流中的音乐与语音。实时和批量。
查看工作原理 (https://www.modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago#)
相似文章
@paulabartabajo_:给AI工程师的建议 如果你正在构建语音智能体,别再连接3个独立模型了,用于音频转文本、文本转音频,或文本转文本……
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。
jamiepine/voicebox
Voicebox 是一个开源的、本地优先的 AI 语音工作室,支持语音克隆、语音生成、听写和 AI 代理集成,提供隐私保护和多引擎 TTS 支持。
@multimodalart: 他们只提取了LTX-2.3的音频部分,针对TTS任务进行了微调,实现了SOTA级别的TTS情感控制???试试看……
LTX-2.3模型音频组件的微调版本在文本转语音中实现了最先进的情感控制,现已在Hugging Face Space上以DramaBox(由ResembleAI提供)的形式提供。
我搭建了一个完全离线的语音循环,对接Ollama和LM Studio——100% CPU,无需GPU,数据绝不离开你的电脑(Silero VAD + Parakeet STT + Supertonic TTS 3)
一个完全离线、仅使用CPU的语音循环,用于本地大模型,采用Silero VAD、Parakeet STT和Supertonic TTS,通过一条命令整合安装。兼容Ollama、LM Studio以及多种代理框架。
@svpino: 一步一步的视频教程,从零开始构建语音代理。我使用 Claude Code 来做这个,因为手写代码……
一个逐步视频教程,使用 Claude Code 和 AssemblyAI 的新 Voice Agent API 从零开始构建语音代理。