@svpino：我为两家不同的公司构建了两个语音管道。它们看起来都是这样的：音频 → STT → 清理转录 → ……

X AI KOLs Following 2026/06/05 13:35 产品

voice-ai audio-processing emotion-detection api modulate-ai voice-pipeline

摘要

Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性，然后介绍了 Modulate 公司的 Velma，这是一个原生语音 AI 模型，通过分析原始音频来捕捉意图、情感及其他声学信号，通过 API 获取，其成本比基于 LLM 的方法便宜 10 倍。

我为两家不同的公司构建了两个语音管道。它们看起来都是这样的：音频 → STT → 清理转录 → NLP → 分类 → 执行这行得通，但总有一个我无法解决的问题。每次我将音频转换为文本时，我保留了文字却丢失了含义。语调、犹豫、讽刺和强调都消失了。我有了文本，但却失去了它的灵魂。 @modulate_ai 团队联系了我，并向我展示了如何解决这个问题。 Velma 是一个语音模型，它一直运行在《使命召唤》和《GTA Online》中，用于实时检测不当言论。这个模型完全跳过了转录环节，直接对原始音频进行处理。这使得模型能够考虑到其他模型忽略的“隐形线索”。它能够检测多达 150 种其他模型无法识别的隐形线索！你可以通过 API 访问 Velma，其成本比通过 LLM 处理音频便宜约 10 倍。如果你想试试，可以通过此链接获取 1000 个免费积分： http://modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago… 感谢团队与我合作撰写这篇文章。

查看原文

查看缓存全文

缓存时间: 2026/06/05 15:18

我为两家公司搭建了两套语音管道。

它们长得都差不多：

音频 → 语音转文字 → 清洗后的文本 → NLP → 分类 → 执行动作

这种方式确实能跑通，但有个问题我一直没解决。

每次把音频转成文字，我保留了单词，却丢掉了含义。语气、犹豫、讽刺、重音全都没了。我拿到了文字，却失去了它的灵魂。

@modulate_ai 团队联系了我，向我展示了如何解决这个问题。

Velma 是一个语音模型，一直运行在《使命召唤》和《GTA Online》中，用于实时检测不良言论。

这个模型完全跳过转录文本，直接对原始音频进行处理。这使得模型能够捕捉到其他模型忽略的“隐形线索”。

它能检测多达 150 个其他模型无法察觉的隐形线索！

你可以通过 API 访问 Velma，成本比把音频喂给大语言模型便宜约 10 倍。

如果你想试试，点击这个链接获取 1000 个免费积分：

http://modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago…

感谢团队与我合作发布这篇文章。

Velma API

来源：https://www.modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago

理解每段对话的真实含义

转录会丢弃情感、语气和其他携带着对话真正含义的音频线索。Velma 是一个语音原生模型，它直接聆听音频本身。

Velma 将语音对话转化为你可以采取行动的信号和行为——开箱即用，无需大语言模型。语音 AI 的未来是用 Velma 构建的。

认识 VELMA

音频原生 AI，识别并升级你的风险

VELMA 与众不同之处

转录捕捉词语。Velma 捕捉含义。

词语只是表面。Velma 倾听全貌。

基于词语的转录丢弃了对话的真正含义。Velma 利用声学信号，像人类一样理解对话。

行业标准

转录 + 大语言模型管道

语音信号被丢弃

语气、情感、犹豫、压力、说话人动态、意图、讽刺以及其他更多信息

转录捕捉到的层次

1 层

误解意图和脆弱性

丢失愤怒、沮丧、恐惧、喜悦、讽刺

忽略停顿或独特的表达方式

忽略打断和旁白

欺骗和压力线索

丢失

错过犹豫和声音焦虑

声学真实性

丢失

无法捕捉深度伪造或欺骗

MODULATE 的 VELMA

语音原生 AI

语音信号被分析

语气、情感、意图、节奏、上下文、口音、深度伪造、讽刺、声音生物标记等

VELMA 捕捉到的层次

7 层

行业领先的转录准确度

意图和行为

捕捉到

任何可实时检测的行为

20+ 种情感来自声学信号

音高、节奏、强调、语速

多说话人分割及模式

欺骗和压力线索

捕捉到

声音压力、说谎、胁迫信号

声学真实性

捕捉到

Hugging Face 上 #1 的深度伪造检测

行为

定义对你的业务重要的风险。Velma 在音频中听到它们。

告诉 Velma 什么对你重要——用纯语言编辑任何行为或编写你自己的行为。Velma 利用所有音频信号准确检测它们。

检测代理是否跳过必须项

已保存：未经授权的数据泄露

你也可以上传 SOP、合规文档或操作手册，来精确指定 Velma 应该捕捉什么。

Velma 与行业标准对比

来自更好架构的音频原生能力。

语音原生集合监听模型 (ELM) (https://ensemblelisteningmodel.com/)

转录 + 大语言模型管道

100+ 个专门的子模型，每个针对特定信号或任务优化

没有音频信号的转录文本 + 基于文本的大语言模型

从音频理解情感，而非词语选择。20+ 种情感。

无内置功能。需要单独的 SER 模型。

语气、情感、韵律、节奏、声音压力。

大笑、喊叫、哭泣、喊叫、犹豫、音高、节奏

98.9% 准确率，Hugging Face 上 #1，同一 API 调用

不是功能。单独的模型+管道阶段。

用纯英语描述。Velma 同时使用音频和文本以获得更高准确率。

通过提示工程可能实现，准确度仅限于词语所能揭示的内容。

默认 50 个，再加 100 个模板——欺诈、流失、合规与升级

无。每个都需要提示工程+持续维护。

行业领先，处理重叠和噪声

因系统而异；重叠是常见失败点

即插即用。发送音频，接收结构化 JSON。几行代码。

需要分别管理 STT 和 LLM，再加上自定义逻辑来丰富上下文。

用 Velma 构建

在音频理解之上构建，而非转录

更智能的语音代理

理解语音信号的 AI 代理，提供更好的响应。

AI 语音护栏

监控你的 LLM 语音代理正在说什么——以及呼叫者如何反应。

情感驱动应用

实时个性化每一次交互——根据呼叫者实际感受路由、响应和适应。

对话分析

用更好的对话洞察取代你的 STT/ASR 层。

实时辅导工具

基于通话进展，实时提示代理接下来该说什么的助手。

你能想到的任何事

告诉 Velma 在对话中找到任何内容，它就会做到。你能构建什么，只受限于你能描述什么。

Velma 的定位

你的语音栈的即插即用层

理解层

Velma API

REST + WebSocket

将 Velma 放入任何语音管道。底层模型处理其余部分。

Velma 是对话理解领域的 #1 模型

对话理解基准对比——

准确度 vs. 成本评估模型识别对话类型、主题、说话人角色和关键行为的能力。方法 ↗ (https://www.modulate.ai/benchmark-methodology)

最高准确度，最低成本

推理成本

准确度分数

velma-2-fast

velma-2

grok-4.1-fast-non-reasoning

grok-4.1-fast-reasoning

gemini-2-flash-lite

deepseek-v3.1

gemini-2-flash

deepseek-v3.2

gemini-3-flash-min

deepseek-r1

gemini-3-flash-med

gemini-2.5-pro

gemini-3-pro

grok-3

nova-3-intelligence

scribe-v2

grok-4-heavy

gpt-5-mini

gpt-5.2-pro

gpt-5.2

$0.01

0.02

0.03

0.04

0.05

0.06

0.07

$0.08

$0.10

0.50

1.00

$1.50

几分钟内开始使用

即插即用设计——三步，一个 API

发送音频

将 Velma 指向一个文件或实时流——或者连接你已有的平台（Five9、Genesys、Teams、Twilio、SIP）。一个端点，无需搭建管道。

Velma 分析

一个单独的语音原生模型完成所有工作——无需将独立的转录、LLM 或富化服务连接起来并保持同步。

输出，按你喜欢的任何方式

结构化的 JSON——实时流式输出、存入数据仓库或触发告警。由你决定输出到哪。

它真的这么短——流式处理，从头到尾：

# 1 · 打开连接 2 · 流式传输音频 3 · 读取结果

ws = connect(“wss://modulate-developer-apis.com/api/velma-2-streaming?api_key=…”)

ws.send(config) # 要检测什么——或者直接使用默认包

ws.send(audio_chunk) # 流式传输你的音频

foreventinws:# 片段、行为、主题、摘要…

handle(event)

开始用 Velma 构建吧。

获取 API 密钥或尝试 Playground，看看 Velma 如何理解真实对话。

更多来自 Modulate

探索 Modulate 的其他领先语音模型

为实时性能构建的音频原生 API——可直接集成到你的技术栈。

深度伪造检测

合成语音检测，批处理和流式处理。Hugging Face 排行榜 #1。

查看工作原理 (https://www.modulate.ai/api/deepfake-detection-model)

语音转文字

实时和批量转录，带说话人分割。最低成本，最低错误率。

查看工作原理 (https://www.modulate.ai/api/speech-to-text)

PII/PHI 脱敏

自动对转录文本和音频中的敏感内容进行脱敏。合规就绪。

查看工作原理 (https://www.modulate.ai/api/speech-to-text#pii_phi_redaction)

音乐检测

检测任何音频流中的音乐与语音。实时和批量。

查看工作原理 (https://www.modulate.ai/api/velma?utm_source=x&utm_medium=influencer&utm_campaign=velmaapi&utm_term=socialpost&utm_content=santiago#)

@svpino：我为两家不同的公司构建了两个语音管道。它们看起来都是这样的：音频 → STT → 清理转录 → ……

Velma API

理解每段对话的真实含义

音频原生 AI，识别并升级你的风险

转录捕捉词语。Velma 捕捉含义。

词语只是表面。Velma 倾听全貌。

行业标准

MODULATE 的 VELMA

定义对你的业务重要的风险。Velma 在音频中听到它们。

来自更好架构的音频原生能力。

在音频理解之上构建，而非转录

更智能的语音代理

AI 语音护栏

情感驱动应用

对话分析

实时辅导工具

你能想到的任何事

你的语音栈的即插即用层

Velma 是对话理解领域的 #1 模型

即插即用设计——三步，一个 API

开始用 Velma 构建吧。

探索 Modulate 的其他领先语音模型

深度伪造检测

语音转文字

PII/PHI 脱敏

音乐检测

相似文章

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

jamiepine/voicebox

@multimodalart: 他们只提取了LTX-2.3的音频部分，针对TTS任务进行了微调，实现了SOTA级别的TTS情感控制？？？试试看……

我搭建了一个完全离线的语音循环，对接Ollama和LM Studio——100% CPU，无需GPU，数据绝不离开你的电脑（Silero VAD + Parakeet STT + Supertonic TTS 3）

@svpino: 一步一步的视频教程，从零开始构建语音代理。我使用 Claude Code 来做这个，因为手写代码……

提交意见反馈

Velma API

理解每段对话的真实含义

音频原生 AI，识别并升级你的风险

转录捕捉词语。Velma 捕捉含义。

词语只是表面。Velma 倾听全貌。

行业标准

MODULATE 的 VELMA

定义对你的业务重要的风险。Velma 在音频中听到它们。

来自更好架构的音频原生能力。

在音频理解之上构建，而非转录

更智能的语音代理

AI 语音护栏

情感驱动应用

对话分析

实时辅导工具

你能想到的任何事

你的语音栈的即插即用层

Velma 是对话理解领域的 #1 模型

即插即用设计——三步，一个 API

开始用 Velma 构建吧。

探索 Modulate 的其他领先语音模型

深度伪造检测

语音转文字

PII/PHI 脱敏

音乐检测

相似文章

@paulabartabajo_：给AI工程师的建议 如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

jamiepine/voicebox

@multimodalart: 他们只提取了LTX-2.3的音频部分，针对TTS任务进行了微调，实现了SOTA级别的TTS情感控制？？？试试看……

我搭建了一个完全离线的语音循环，对接Ollama和LM Studio——100% CPU，无需GPU，数据绝不离开你的电脑（Silero VAD + Parakeet STT + Supertonic TTS 3）

@svpino: 一步一步的视频教程，从零开始构建语音代理。我使用 Claude Code 来做这个，因为手写代码……

提交意见反馈

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……