voice-ai

标签

Cards List
#voice-ai

@ycombinator: Tune in:

X AI KOLs Following · 1小时前 缓存

Koval 是一个面向语音智能体的模拟与可观测性平台,帮助企业安全扩展语音应用。创始人 Brooke Hopkins 分享了语音作为 AI 自然交互界面的潜力,以及语音 AI 与自动驾驶在架构上的相似性。

0 人收藏 0 人点赞
#voice-ai

@FeitengLi: 由 Fable 5 领衔(仅半天)Codex 接力开发历时一周 #EdgeSpeak 正式上线,转发的朋友联系我收邀请码 https://edgespeak.com/zh

X AI KOLs Timeline · 3天前 缓存

EdgeSpeak 桌面端语音转录工具正式上线,搭载本地 Lattice-2 语音大模型,支持离线音视频转录、多种语言和口音,并提供本地 API 接口以便开发者集成。

1 人收藏 0 人点赞
#voice-ai

构建像人类一样轮流说话的语音AI代理——没人提醒你的陷阱

Reddit r/AI_Agents · 3天前

本文分享了构建实时语音AI代理的宝贵经验,强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。

0 人收藏 0 人点赞
#voice-ai

@AndrewYNg: 新课程:为你的AI智能体和应用添加语音功能,基于@VocalBridge构建(披露:AI Fund投资组合公司…

X AI KOLs Following · 6天前 缓存

Andrew Ng宣布了一门新课程,关于使用VocalBridge为AI智能体添加语音功能,由其CEO授课。课程涵盖三种集成模式和评估技术,用于构建可靠且低延迟的语音应用。

0 人收藏 0 人点赞
#voice-ai

Vapi 与 Elevenlabs 对比速查表

Reddit r/ArtificialInteligence · 6天前

一份 Vapi 与 Elevenlabs 的对比速查表,突出它们在语音 AI 方面的功能和差异。

0 人收藏 0 人点赞
#voice-ai

如何构建一个能进行数学计算并生成准确报价的语音AI

Reddit r/AI_Agents · 6天前

关于构建一个能够执行数学计算并生成准确报价的语音AI的指南

0 人收藏 0 人点赞
#voice-ai

开放建议:白标AI语音代理

Reddit r/AI_Agents · 2026-06-17

宣布推出白标AI语音代理,使企业能够部署可定制的语音AI解决方案,并以自有品牌运营。

0 人收藏 0 人点赞
#voice-ai

Tyto by ai-coustics

Product Hunt · 2026-06-16

Tyto by ai-coustics 是一款提供音频洞察以预测语音AI性能的工具。

0 人收藏 0 人点赞
#voice-ai

我构建语音代理三年了。以下是让它们听起来像真人的提示习惯。

Reddit r/AI_Agents · 2026-06-15

本文分享了让语音AI代理听起来更像人类的关键提示习惯,包括大声朗读提示、明确使用填充词、展示示例而非说明、处理特殊字符,以及允许代理说不知道。

0 人收藏 0 人点赞
#voice-ai

在Arduino上使用Magenta Realtime 2实现无限音乐故障

Reddit r/LocalLLaMA · 2026-06-11

一位开发者使用ESP32微控制器、MacBook、用于实时音乐生成的Magenta Realtime 2、用于转录的MLX Whisper,以及用于工具调用的Qwen模型,构建了一个本地语音控制的音乐系统,实现了对音乐元素(如流派和乐器)的对话式控制。

0 人收藏 0 人点赞
#voice-ai

Hush

Product Hunt · 2026-06-09

Hush 是一个开源的噪声抑制工具,专为语音AI代理设计,可提升实时交互中的音频清晰度。

0 人收藏 0 人点赞
#voice-ai

@Sumanth_077: 动手实践AI工程!我开源了一个包含50多个动手AI工程教程的合集。它包含逐步指导…

X AI KOLs Timeline · 2026-06-06 缓存

一个包含50多个动手AI工程教程的合集,涵盖AI智能体、RAG、MCP、OCR、语音AI等,已开源,获得1000+ GitHub星标。

0 人收藏 0 人点赞
#voice-ai

@svpino:我为两家不同的公司构建了两个语音管道。它们看起来都是这样的:音频 → STT → 清理转录 → ……

X AI KOLs Following · 2026-06-05 缓存

Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。

0 人收藏 0 人点赞
#voice-ai

在构建 AI 辅导系统时,延迟比模型选择更重要

Reddit r/AI_Agents · 2026-06-04

一位从业者认为,在 AI 辅导系统中,语音启动延迟才是关键因素,而非模型的选择。他建议将语音启动延迟控制在 1 秒以内,并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路,并指出延迟叠加最严重的环节。

0 人收藏 0 人点赞
#voice-ai

@ElevenLabsDevs: 呼叫您的 Hermes Agent

X AI KOLs Following · 2026-06-04

ElevenLabs 引入了呼叫您的 Hermes Agent 的功能,通过他们的平台实现与AI代理的语音交互。

0 人收藏 0 人点赞
#voice-ai

@uniswap12: 微软开源了一个语音 AI,60 分钟长音频一次转写,4 个人同时说话都能搞定 VibeVoice,微软开源,24.8k star,今天才知道这个。录音一键转文字这件事,我之前一直用 Whisper,但它处理长会议录音经常超时,多人说话识别…

X AI KOLs Timeline · 2026-06-04 缓存

微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。

0 人收藏 0 人点赞
#voice-ai

@svpino: 人类在交谈时的平均延迟为200-250毫秒。这款语音模型甚至更快:仅110…

X AI KOLs Following · 2026-06-03

一款开放权重的8B参数语音模型仅需110毫秒延迟,比人类平均对话延迟200-250毫秒更快。它可以在本地运行,并通过GitHub仓库免费获取。

0 人收藏 0 人点赞
#voice-ai

这两位创始人离开高盛和Meta,为被忽视的市场打造语音AI

TechCrunch AI · 2026-06-03 缓存

由前高盛和Meta员工创立的AethexAI筹集了300万美元,为非洲和中东市场打造语音AI,使用小模型降低延迟,并推出带有API和SDK的平台。

0 人收藏 0 人点赞
#voice-ai

Sun

Product Hunt · 2026-06-03

Sun 是一款为 AI 智能体设计的协作语音 API,使基于智能体的应用具备语音能力。

0 人收藏 0 人点赞
#voice-ai

对于正在探索VICIdial与语音AI集成的人来说,这里有一个有用的资源:

Reddit r/AI_Agents · 2026-06-03

集成语音AI与VICIdial的文档,展示了现有的拨号器基础设施可以与AI语音代理一起使用,而无需完全替换。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈