audio-processing

#audio-processing

海报：探索基于音频检测土耳其电话诈骗的极限

arXiv cs.CL ↗ · 昨天缓存

本文介绍了首个公开的多模态数据集，包含100个土耳其诈骗和良性电话通话，评估了七种大语言模型在原始音频、ASR转录和人工纠正转录下的表现。结果表明，基于转录的输入优于直接音频，凸显了在低资源语言中进行包容性AI安全研究的必要性。

0 人收藏 0 人点赞

#audio-processing

构建像人类一样轮流说话的语音AI代理——没人提醒你的陷阱

Reddit r/AI_Agents ↗ · 4天前

本文分享了构建实时语音AI代理的宝贵经验，强调了正确的轮流发言、VAD处理、计费意识以及避免回声循环的重要性。

0 人收藏 0 人点赞

#audio-processing

从录音中去除'um'比听起来更难

Hacker News Top ↗ · 2026-06-12 缓存

一个本地CLI工具，利用OpenAI的Whisper检测并去除音频录音中的填充词（um、uh、erm），采用技术避免点击声和背景嘶嘶声等音频伪影。

0 人收藏 0 人点赞

#audio-processing

Hush

Product Hunt ↗ · 2026-06-09

Hush 是一个开源的噪声抑制工具，专为语音AI代理设计，可提升实时交互中的音频清晰度。

0 人收藏 0 人点赞

#audio-processing

@CopyRebeldia: 每月向你收费，把你的会议变成摘要的业务今天非常糟糕。微软发布了…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

微软发布了VibeVoice开源模型，可一次性处理一整小时的音频，并返回带有说话人识别和时间戳的结构化文本，颠覆了付费转录服务。

0 人收藏 0 人点赞

#audio-processing

Show HN: Resonate – 低延迟高分辨率频谱分析

Hacker News Top ↗ · 2026-06-06 缓存

Resonate 是一种低延迟、低内存的算法，用于对音频信号进行感知相关的频谱分析，采用带有指数加权移动平均的谐振器模型。

0 人收藏 0 人点赞

#audio-processing

@svpino：我为两家不同的公司构建了两个语音管道。它们看起来都是这样的：音频 → STT → 清理转录 → ……

X AI KOLs Following ↗ · 2026-06-05 缓存

Santiago 指出了传统 STT 管道在丢失语调和情感方面的局限性，然后介绍了 Modulate 公司的 Velma，这是一个原生语音 AI 模型，通过分析原始音频来捕捉意图、情感及其他声学信号，通过 API 获取，其成本比基于 LLM 的方法便宜 10 倍。

0 人收藏 0 人点赞

#audio-processing

Show HN: 通过手机麦克风进行实时呼吸检测与生物反馈

Hacker News Top ↗ · 2026-06-02 缓存

一个开源项目，利用手机麦克风进行实时呼吸检测与生物反馈，在设备本地处理音频，无需穿戴设备或上传云端，以增强自我觉察能力。

0 人收藏 0 人点赞

#audio-processing

@FakeMaidenMaker: Perplexity 前两天发布了他们最新的团队分享：《Perplexity 是怎么借助 Realtime API 将语音搜索带给数百万用户的》他们用 OpenAI 的 Realtime-1.5 给自家的 AI 浏览器 Comet 加…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

Perplexity 分享了利用 OpenAI Realtime API 为自家 AI 浏览器 Comet 添加语音功能的工程经验，包括上下文小块喂送、角色管理、音频管线统一等关键技巧。

0 人收藏 0 人点赞

#audio-processing

深入解析：构建实时和弦识别器

Lobsters Hottest ↗ · 2026-05-19 缓存

本文解释了实时和弦识别器的技术架构，详细介绍了使用音级位掩码、候选生成、分数归一化和音乐启发式的四阶段流水线。

0 人收藏 0 人点赞

#audio-processing

我开发了 Derpy Turtle：Kokoro 训练器，一个用于通过 RVC 训练更好 Kokoro 音色的 GUI

Reddit r/LocalLLaMA ↗ · 2026-05-12 缓存

Derpy Turtle 是一款 Windows GUI 工具，旨在通过整合音色搜索、RVC 模型训练和生成后音色转换，将工作流统一起来，从而增强 Kokoro 的语音输出效果。

1 人收藏 1 人点赞

#audio-processing

通过多模态突破纯文本瓶颈？

Reddit r/AI_Agents ↗ · 2026-05-11

本文讨论了多模态 AI 模型（如 GPT-4o 和 Claude 3.5 Sonnet）如何通过支持可视化调试、音频转数据以及增强型 RAG 系统，来克服纯文本处理的瓶颈。

0 人收藏 0 人点赞

#audio-processing

@gdb: GPT-Realtime-2 用于即时实时翻译音频

X AI KOLs Following ↗ · 2026-05-09

GPT-Realtime-2 被介绍为一种用于即时实时音频翻译的工具。

0 人收藏 0 人点赞

#audio-processing

@Prince_Canuma: mlx-audio v0.4.3 正式发布！模型、服务器和开发体验全面升级 → 6 个全新 TTS 模型：Higgs Audio v2（声音克隆）…

X AI KOLs Timeline ↗ · 2026-05-09 缓存

mlx-audio v0.4.3 发布，新增 6 个 TTS 模型，包括 Higgs Audio v2 和支持 646+ 种语言的 OmniVoice，同时带来并发请求与持续批处理等服务器改进，Voxtral Realtime 4-bit 模式速度提升约 3 倍，并精简了 Apple Silicon 上的依赖项。

1 人收藏 1 人点赞

#audio-processing

使用手机加速度计的吉他调音器

Hacker News Top ↗ · 2026-05-08 缓存

一款基于网络的吉他调音器，利用手机加速度计检测琴弦振动并计算音高。

0 人收藏 0 人点赞

audio-processing

提交意见反馈