标签
本文介绍了首个公开的多模态数据集,包含100个土耳其诈骗和良性电话通话,评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明,基于转录的输入优于直接音频,凸显了在低资源语言中进行包容性AI安全研究的必要性。
本文分享了构建实时语音AI代理的宝贵经验,强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。
一个本地CLI工具,利用OpenAI的Whisper检测并去除音频录音中的填充词(um、uh、erm),采用技术避免点击声和背景嘶嘶声等音频伪影。
微软发布了VibeVoice开源模型,可一次性处理一整小时的音频,并返回带有说话人识别和时间戳的结构化文本,颠覆了付费转录服务。
Resonate 是一种低延迟、低内存的算法,用于对音频信号进行感知相关的频谱分析,采用带有指数加权移动平均的谐振器模型。
Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。
一个开源项目,利用手机麦克风进行实时呼吸检测与生物反馈,在设备本地处理音频,无需穿戴设备或上传云端,以增强自我觉察能力。
Perplexity 分享了利用 OpenAI Realtime API 为自家 AI 浏览器 Comet 添加语音功能的工程经验,包括上下文小块喂送、角色管理、音频管线统一等关键技巧。
本文解释了实时和弦识别器的技术架构,详细介绍了使用音级位掩码、候选生成、分数归一化和音乐启发式的四阶段流水线。
Derpy Turtle 是一款 Windows GUI 工具,旨在通过整合音色搜索、RVC 模型训练和生成后音色转换,将工作流统一起来,从而增强 Kokoro 的语音输出效果。
本文讨论了多模态 AI 模型(如 GPT-4o 和 Claude 3.5 Sonnet)如何通过支持可视化调试、音频转数据以及增强型 RAG 系统,来克服纯文本处理的瓶颈。
mlx-audio v0.4.3 发布,新增 6 个 TTS 模型,包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice,同时带来并发请求与持续批处理等服务器改进,Voxtral Realtime 4-bit 模式速度提升约 3 倍,并精简了 Apple Silicon 上的依赖项。