voice-ai

#voice-ai

本月语音AI重磅交易盘点

Reddit r/artificial ↗ · 12小时前缓存

5月份，语音AI领域融资额超过18亿美元，其中Sierra的9.25亿美元和Hark的7亿美元融资轮次领跑。同时，ElevenLabs推出了用于音乐生成和配音的新模型，增强了控制功能。本简报还重点介绍了医疗领域的交易和印度不断增长的语音市场。

0 人收藏 0 人点赞

#voice-ai

实时语音AI听得见但听不懂（arXiv:2606.26083）

Reddit r/artificial ↗ · 22小时前缓存

本文评估了四个领先的实时语音AI系统（GPT Realtime 2、Gemini 3.1 Flash Live、Qwen3.5 Omni Plus、Omni Flash），发现它们始终根据词语而非语气采取行动，即使能够感知到痛苦、恐惧或讽刺也忽略不计——这被称为语音AI的“情商鸿沟”。

0 人收藏 0 人点赞

#voice-ai

@ycombinator: Tune in:

X AI KOLs Following ↗ · 昨天缓存

Koval 是一个面向语音智能体的模拟与可观测性平台，帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力，以及语音 AI 与自动驾驶在架构上的相似性。

0 人收藏 0 人点赞

#voice-ai

@bnicholehopkins: 我很高兴宣布 @covaldev 完成了 2800 万美元的 A 轮融资，由 @NorwestVP 领投，@Base10Partners、@twilio Ventures 和 @ycombinator 等参投。

X AI KOLs Following ↗ · 2天前缓存

Coval，一家专注于语音 AI 智能体模拟与评估的初创公司，完成了由 Norwest Venture Partners 领投的 2800 万美元 A 轮融资。

0 人收藏 0 人点赞

#voice-ai

@FeitengLi: 由 Fable 5 领衔（仅半天）Codex 接力开发历时一周 #EdgeSpeak 正式上线，转发的朋友联系我收邀请码 https://edgespeak.com/zh

X AI KOLs Timeline ↗ · 5天前缓存

EdgeSpeak 桌面端语音转录工具正式上线，搭载本地 Lattice-2 语音大模型，支持离线音视频转录、多种语言和口音，并提供本地 API 接口以便开发者集成。

1 人收藏 0 人点赞

#voice-ai

构建像人类一样轮流说话的语音AI代理——没人提醒你的陷阱

Reddit r/AI_Agents ↗ · 5天前

本文分享了构建实时语音AI代理的宝贵经验，强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。

0 人收藏 0 人点赞

#voice-ai

@AndrewYNg: 新课程：为你的AI智能体和应用添加语音功能，基于@VocalBridge构建（披露：AI Fund投资组合公司…

X AI KOLs Following ↗ · 2026-06-18 缓存

Andrew Ng宣布了一门新课程，关于使用VocalBridge为AI智能体添加语音功能，由其CEO授课。课程涵盖三种集成模式和评估技术，用于构建可靠且低延迟的语音应用。

0 人收藏 0 人点赞

#voice-ai

Vapi 与 Elevenlabs 对比速查表

Reddit r/ArtificialInteligence ↗ · 2026-06-18

一份 Vapi 与 Elevenlabs 的对比速查表，突出它们在语音 AI 方面的功能和差异。

0 人收藏 0 人点赞

#voice-ai

如何构建一个能进行数学计算并生成准确报价的语音AI

Reddit r/AI_Agents ↗ · 2026-06-17

关于构建一个能够执行数学计算并生成准确报价的语音AI的指南

0 人收藏 0 人点赞

#voice-ai

开放建议：白标AI语音代理

Reddit r/AI_Agents ↗ · 2026-06-17

宣布推出白标AI语音代理，使企业能够部署可定制的语音AI解决方案，并以自有品牌运营。

0 人收藏 0 人点赞

#voice-ai

Tyto by ai-coustics

Product Hunt ↗ · 2026-06-16

Tyto by ai-coustics 是一款提供音频洞察以预测语音AI性能的工具。

0 人收藏 0 人点赞

#voice-ai

我构建语音代理三年了。以下是让它们听起来像真人的提示习惯。

Reddit r/AI_Agents ↗ · 2026-06-15

本文分享了让语音AI代理听起来更像人类的关键提示习惯，包括大声朗读提示、明确使用填充词、展示示例而非说明、处理特殊字符，以及允许代理说不知道。

0 人收藏 0 人点赞

#voice-ai

在Arduino上使用Magenta Realtime 2实现无限音乐故障

Reddit r/LocalLLaMA ↗ · 2026-06-11

一位开发者使用ESP32微控制器、MacBook、用于实时音乐生成的Magenta Realtime 2、用于转录的MLX Whisper，以及用于工具调用的Qwen模型，构建了一个本地语音控制的音乐系统，实现了对音乐元素（如流派和乐器）的对话式控制。

0 人收藏 0 人点赞

#voice-ai

Hush

Product Hunt ↗ · 2026-06-09

Hush 是一个开源的噪声抑制工具，专为语音AI代理设计，可提升实时交互中的音频清晰度。

0 人收藏 0 人点赞

#voice-ai

@Sumanth_077: 动手实践AI工程！我开源了一个包含50多个动手AI工程教程的合集。它包含逐步指导…

X AI KOLs Timeline ↗ · 2026-06-06 缓存

一个包含50多个动手AI工程教程的合集，涵盖AI智能体、RAG、MCP、OCR、语音AI等，已开源，获得1000+ GitHub星标。

0 人收藏 0 人点赞

#voice-ai

@svpino：我为两家不同的公司构建了两个语音管道。它们看起来都是这样的：音频 → STT → 清理转录 → ……

X AI KOLs Following ↗ · 2026-06-05 缓存

Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性，然后介绍了 Modulate 公司的 Velma，这是一个原生语音 AI 模型，通过分析原始音频来捕捉意图、情感及其他声学信号，通过 API 获取，其成本比基于 LLM 的方法便宜 10 倍。

0 人收藏 0 人点赞

#voice-ai

在构建 AI 辅导系统时，延迟比模型选择更重要

Reddit r/AI_Agents ↗ · 2026-06-04

一位从业者认为，在 AI 辅导系统中，语音启动延迟才是关键因素，而非模型的选择。他建议将语音启动延迟控制在 1 秒以内，并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路，并指出延迟叠加最严重的环节。

0 人收藏 0 人点赞

#voice-ai

@ElevenLabsDevs: 呼叫您的 Hermes Agent

X AI KOLs Following ↗ · 2026-06-04

ElevenLabs 引入了呼叫您的 Hermes Agent 的功能，通过他们的平台实现与AI代理的语音交互。

0 人收藏 0 人点赞

#voice-ai

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline ↗ · 2026-06-04 缓存

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

0 人收藏 0 人点赞

#voice-ai

@svpino: 人类在交谈时的平均延迟为200-250毫秒。这款语音模型甚至更快：仅110…

X AI KOLs Following ↗ · 2026-06-03

一款开放权重的8B参数语音模型仅需110毫秒延迟，比人类平均对话延迟200-250毫秒更快。它可以在本地运行，并通过GitHub仓库免费获取。

0 人收藏 0 人点赞

voice-ai

提交意见反馈