@svpino:我为两家不同的公司构建了两个语音管道。它们看起来都是这样的:音频 → STT → 清理转录 → ……

X AI KOLs Following 产品

摘要

Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。

我为两家不同的公司构建了两个语音管道。 它们看起来都是这样的: 音频 → STT → 清理转录 → NLP → 分类 → 执行 这行得通,但总有一个我无法解决的问题。 每次我将音频转换为文本时,我保留了文字却丢失了含义。语调、犹豫、讽刺和强调都消失了。我有了文本,但却失去了它的灵魂。 @modulate_ai 团队联系了我,并向我展示了如何解决这个问题。 Velma 是一个语音模型,它一直运行在《使命召唤》和《GTA Online》中,用于实时检测不当言论。 这个模型完全跳过了转录环节,直接对原始音频进行处理。这使得模型能够考虑到其他模型忽略的“隐形线索”。 它能够检测多达 150 种其他模型无法识别的隐形线索! 你可以通过 API 访问 Velma,其成本比通过 LLM 处理音频便宜约 10 倍。 如果你想试试,可以通过此链接获取 1000 个免费积分: http://modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago… 感谢团队与我合作撰写这篇文章。
查看原文
查看缓存全文

缓存时间: 2026/06/05 15:18

我为两家公司搭建了两套语音管道。

它们长得都差不多:

音频 → 语音转文字 → 清洗后的文本 → NLP → 分类 → 执行动作

这种方式确实能跑通,但有个问题我一直没解决。

每次把音频转成文字,我保留了单词,却丢掉了含义。语气、犹豫、讽刺、重音全都没了。我拿到了文字,却失去了它的灵魂。

@modulate_ai 团队联系了我,向我展示了如何解决这个问题。

Velma 是一个语音模型,一直运行在《使命召唤》和《GTA Online》中,用于实时检测不良言论。

这个模型完全跳过转录文本,直接对原始音频进行处理。这使得模型能够捕捉到其他模型忽略的“隐形线索”。

它能检测多达 150 个其他模型无法察觉的隐形线索!

你可以通过 API 访问 Velma,成本比把音频喂给大语言模型便宜约 10 倍。

如果你想试试,点击这个链接获取 1000 个免费积分:

http://modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago…

感谢团队与我合作发布这篇文章。


Velma API

来源:https://www.modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago

理解每段对话的真实含义

转录会丢弃情感、语气和其他携带着对话真正含义的音频线索。Velma 是一个语音原生模型,它直接聆听音频本身。

Velma 将语音对话转化为你可以采取行动的信号和行为——开箱即用,无需大语言模型。语音 AI 的未来是用 Velma 构建的。

认识 VELMA

音频原生 AI,识别并升级你的风险

VELMA 与众不同之处

转录捕捉词语。Velma 捕捉含义。

词语只是表面。Velma 倾听全貌。

基于词语的转录丢弃了对话的真正含义。Velma 利用声学信号,像人类一样理解对话。

行业标准

转录 + 大语言模型管道

语音信号被丢弃

语气、情感、犹豫、压力、说话人动态、意图、讽刺以及其他更多信息

转录捕捉到的层次

1 层

误解意图和脆弱性

丢失愤怒、沮丧、恐惧、喜悦、讽刺

忽略停顿或独特的表达方式

忽略打断和旁白

欺骗和压力线索

丢失

错过犹豫和声音焦虑

声学真实性

丢失

无法捕捉深度伪造或欺骗

MODULATE 的 VELMA

语音原生 AI

语音信号被分析

语气、情感、意图、节奏、上下文、口音、深度伪造、讽刺、声音生物标记等

VELMA 捕捉到的层次

7 层

行业领先的转录准确度

意图和行为

捕捉到

任何可实时检测的行为

20+ 种情感来自声学信号

音高、节奏、强调、语速

多说话人分割及模式

欺骗和压力线索

捕捉到

声音压力、说谎、胁迫信号

声学真实性

捕捉到

Hugging Face 上 #1 的深度伪造检测

行为

定义对你的业务重要的风险。Velma 在音频中听到它们。

告诉 Velma 什么对你重要——用纯语言编辑任何行为或编写你自己的行为。Velma 利用所有音频信号准确检测它们。

检测代理是否跳过必须项

已保存:未经授权的数据泄露

你也可以上传 SOP、合规文档或操作手册,来精确指定 Velma 应该捕捉什么。

Velma 与行业标准对比

来自更好架构的音频原生能力。

语音原生集合监听模型 (ELM) (https://ensemblelisteningmodel.com/)

转录 + 大语言模型管道

100+ 个专门的子模型,每个针对特定信号或任务优化

没有音频信号的转录文本 + 基于文本的大语言模型

从音频理解情感,而非词语选择。20+ 种情感。

无内置功能。需要单独的 SER 模型。

语气、情感、韵律、节奏、声音压力。

大笑、喊叫、哭泣、喊叫、犹豫、音高、节奏

98.9% 准确率,Hugging Face 上 #1,同一 API 调用

不是功能。单独的模型+管道阶段。

用纯英语描述。Velma 同时使用音频和文本以获得更高准确率。

通过提示工程可能实现,准确度仅限于词语所能揭示的内容。

默认 50 个,再加 100 个模板——欺诈、流失、合规与升级

无。每个都需要提示工程+持续维护。

行业领先,处理重叠和噪声

因系统而异;重叠是常见失败点

即插即用。发送音频,接收结构化 JSON。几行代码。

需要分别管理 STT 和 LLM,再加上自定义逻辑来丰富上下文。

用 Velma 构建

在音频理解之上构建,而非转录

更智能的语音代理

理解语音信号的 AI 代理,提供更好的响应。

AI 语音护栏

监控你的 LLM 语音代理正在说什么——以及呼叫者如何反应。

情感驱动应用

实时个性化每一次交互——根据呼叫者实际感受路由、响应和适应。

对话分析

用更好的对话洞察取代你的 STT/ASR 层。

实时辅导工具

基于通话进展,实时提示代理接下来该说什么的助手。

你能想到的任何事

告诉 Velma 在对话中找到任何内容,它就会做到。你能构建什么,只受限于你能描述什么。

Velma 的定位

你的语音栈的即插即用层

理解层

Velma API

REST + WebSocket

将 Velma 放入任何语音管道。底层模型处理其余部分。

Velma 是对话理解领域的 #1 模型

对话理解基准对比——

准确度 vs. 成本 评估模型识别对话类型、主题、说话人角色和关键行为的能力。方法 ↗ (https://www.modulate.ai/benchmark-methodology)

最高准确度,最低成本

推理成本

准确度分数

velma-2-fast

velma-2

grok-4.1-fast-non-reasoning

grok-4.1-fast-reasoning

gemini-2-flash-lite

deepseek-v3.1

gemini-2-flash

deepseek-v3.2

gemini-3-flash-min

deepseek-r1

gemini-3-flash-med

gemini-2.5-pro

gemini-3-pro

grok-3

nova-3-intelligence

scribe-v2

grok-4-heavy

gpt-5-mini

gpt-5.2-pro

gpt-5.2

1

2

3

4

5

6

7

8

9

10

$0.01

0.02

0.03

0.04

0.05

0.06

0.07

$0.08

$0.10

0.50

1.00

$1.50

0

几分钟内开始使用

即插即用设计——三步,一个 API

发送音频

将 Velma 指向一个文件或实时流——或者连接你已有的平台(Five9、Genesys、Teams、Twilio、SIP)。一个端点,无需搭建管道。

Velma 分析

一个单独的语音原生模型完成所有工作——无需将独立的转录、LLM 或富化服务连接起来并保持同步。

输出,按你喜欢的任何方式

结构化的 JSON——实时流式输出、存入数据仓库或触发告警。由你决定输出到哪。

它真的这么短——流式处理,从头到尾:

# 1 · 打开连接 2 · 流式传输音频 3 · 读取结果

ws = connect(“wss://modulate-developer-apis.com/api/velma-2-streaming?api_key=…”)

ws.send(config) # 要检测什么——或者直接使用默认包

ws.send(audio_chunk) # 流式传输你的音频

foreventinws:# 片段、行为、主题、摘要…

handle(event)

开始用 Velma 构建吧。

获取 API 密钥或尝试 Playground,看看 Velma 如何理解真实对话。

更多来自 Modulate

探索 Modulate 的其他领先语音模型

为实时性能构建的音频原生 API——可直接集成到你的技术栈。

深度伪造检测

合成语音检测,批处理和流式处理。Hugging Face 排行榜 #1。

查看工作原理 (https://www.modulate.ai/api/deepfake-detection-model)

语音转文字

实时和批量转录,带说话人分割。最低成本,最低错误率。

查看工作原理 (https://www.modulate.ai/api/speech-to-text)

PII/PHI 脱敏

自动对转录文本和音频中的敏感内容进行脱敏。合规就绪。

查看工作原理 (https://www.modulate.ai/api/speech-to-text#pii_phi_redaction)

音乐检测

检测任何音频流中的音乐与语音。实时和批量。

查看工作原理 (https://www.modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago#)

相似文章

jamiepine/voicebox

GitHub Trending (daily)

Voicebox 是一个开源的、本地优先的 AI 语音工作室,支持语音克隆、语音生成、听写和 AI 代理集成,提供隐私保护和多引擎 TTS 支持。