audio-processing

标签

Cards List
#audio-processing

海报:探索基于音频检测土耳其电话诈骗的极限

arXiv cs.CL · 昨天 缓存

本文介绍了首个公开的多模态数据集,包含100个土耳其诈骗和良性电话通话,评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明,基于转录的输入优于直接音频,凸显了在低资源语言中进行包容性AI安全研究的必要性。

0 人收藏 0 人点赞
#audio-processing

构建像人类一样轮流说话的语音AI代理——没人提醒你的陷阱

Reddit r/AI_Agents · 4天前

本文分享了构建实时语音AI代理的宝贵经验,强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。

0 人收藏 0 人点赞
#audio-processing

从录音中去除'um'比听起来更难

Hacker News Top · 2026-06-12 缓存

一个本地CLI工具,利用OpenAI的Whisper检测并去除音频录音中的填充词(um、uh、erm),采用技术避免点击声和背景嘶嘶声等音频伪影。

0 人收藏 0 人点赞
#audio-processing

Hush

Product Hunt · 2026-06-09

Hush 是一个开源的噪声抑制工具,专为语音AI代理设计,可提升实时交互中的音频清晰度。

0 人收藏 0 人点赞
#audio-processing

@CopyRebeldia: 每月向你收费,把你的会议变成摘要的业务今天非常糟糕。微软发布了…

X AI KOLs Timeline · 2026-06-08 缓存

微软发布了VibeVoice开源模型,可一次性处理一整小时的音频,并返回带有说话人识别和时间戳的结构化文本,颠覆了付费转录服务。

0 人收藏 0 人点赞
#audio-processing

Show HN: Resonate – 低延迟高分辨率频谱分析

Hacker News Top · 2026-06-06 缓存

Resonate 是一种低延迟、低内存的算法,用于对音频信号进行感知相关的频谱分析,采用带有指数加权移动平均的谐振器模型。

0 人收藏 0 人点赞
#audio-processing

@svpino:我为两家不同的公司构建了两个语音管道。它们看起来都是这样的:音频 → STT → 清理转录 → ……

X AI KOLs Following · 2026-06-05 缓存

Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性,然后介绍了 Modulate 公司的 Velma,这是一个原生语音 AI 模型,通过分析原始音频来捕捉意图、情感及其他声学信号,通过 API 获取,其成本比基于 LLM 的方法便宜 10 倍。

0 人收藏 0 人点赞
#audio-processing

Show HN: 通过手机麦克风进行实时呼吸检测与生物反馈

Hacker News Top · 2026-06-02 缓存

一个开源项目,利用手机麦克风进行实时呼吸检测与生物反馈,在设备本地处理音频,无需穿戴设备或上传云端,以增强自我觉察能力。

0 人收藏 0 人点赞
#audio-processing

@FakeMaidenMaker: Perplexity 前两天发布了他们最新的团队分享 :《Perplexity 是怎么借助 Realtime API 将语音搜索带给数百万用户的》 他们用 OpenAI 的 Realtime-1.5 给自家的 AI 浏览器 Comet 加…

X AI KOLs Timeline · 2026-05-22 缓存

Perplexity 分享了利用 OpenAI Realtime API 为自家 AI 浏览器 Comet 添加语音功能的工程经验,包括上下文小块喂送、角色管理、音频管线统一等关键技巧。

0 人收藏 0 人点赞
#audio-processing

深入解析:构建实时和弦识别器

Lobsters Hottest · 2026-05-19 缓存

本文解释了实时和弦识别器的技术架构,详细介绍了使用音级位掩码、候选生成、分数归一化和音乐启发式的四阶段流水线。

0 人收藏 0 人点赞
#audio-processing

我开发了 Derpy Turtle:Kokoro 训练器,一个用于通过 RVC 训练更好 Kokoro 音色的 GUI

Reddit r/LocalLLaMA · 2026-05-12 缓存

Derpy Turtle 是一款 Windows GUI 工具,旨在通过整合音色搜索、RVC 模型训练和生成后音色转换,将工作流统一起来,从而增强 Kokoro 的语音输出效果。

1 人收藏 1 人点赞
#audio-processing

通过多模态突破纯文本瓶颈?

Reddit r/AI_Agents · 2026-05-11

本文讨论了多模态 AI 模型(如 GPT-4o 和 Claude 3.5 Sonnet)如何通过支持可视化调试、音频转数据以及增强型 RAG 系统,来克服纯文本处理的瓶颈。

0 人收藏 0 人点赞
#audio-processing

@gdb: GPT-Realtime-2 用于即时实时翻译音频

X AI KOLs Following · 2026-05-09

GPT-Realtime-2 被介绍为一种用于即时实时音频翻译的工具。

0 人收藏 0 人点赞
#audio-processing

@Prince_Canuma: mlx-audio v0.4.3 正式发布!模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型:Higgs Audio v2(声音克隆)…

X AI KOLs Timeline · 2026-05-09 缓存

mlx-audio v0.4.3 发布,新增 6 个 TTS 模型,包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice,同时带来并发请求与持续批处理等服务器改进,Voxtral Realtime 4-bit 模式速度提升约 3 倍,并精简了 Apple Silicon 上的依赖项。

1 人收藏 1 人点赞
#audio-processing

使用手机加速度计的吉他调音器

Hacker News Top · 2026-05-08 缓存

一款基于网络的吉他调音器,利用手机加速度计检测琴弦振动并计算音高。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈