audio-ai

#audio-ai

Higgs Audio v3 TTS 4B。专为语音聊天打造。支持100种语言和内联控制。

Reddit r/LocalLLaMA ↗ · 2026-06-04

Higgs Audio v3 是一个 4B 参数的 TTS 模型，专为语音聊天应用设计，支持 100 种语言并具备内联控制能力。

0 人收藏 0 人点赞

#audio-ai

SpurAudio：用于研究少样本音频分类中捷径学习的基准测试

arXiv cs.AI ↗ · 2026-06-04 缓存

SpurAudio 是一个新的基准测试，旨在评估少样本音频分类中的捷径学习与虚假相关性问题。研究表明，当背景相关性被打破时，包括大型预训练音频基础模型在内的最先进方法均出现显著的性能下降。

0 人收藏 0 人点赞

#audio-ai

SpeechEditBench：面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers ↗ · 2026-06-03

SpeechEditBench是一个双语多属性基准，用于评估指令引导的语音编辑，涵盖七项原子任务和组合任务，并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明，没有单一模型能在所有维度上表现出色，而组合编辑仍然极具挑战性。

0 人收藏 0 人点赞

#audio-ai

OpenSTBench：超越语义评估的语音翻译

Hugging Face Daily Papers ↗ · 2026-05-29

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架，能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟，涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白，并为比较异构语音翻译系统提供了一个可复现的基准。

0 人收藏 0 人点赞

#audio-ai

新AI音乐模型发布，演示效果惊人逼真

Reddit r/ArtificialInteligence ↗ · 2026-05-26

一款新AI音乐模型已发布，其演示音频听起来异常真实。

0 人收藏 0 人点赞

#audio-ai

Spotify 以其新应用挑战 Google 的 NotebookLM

TechCrunch AI ↗ · 2026-05-21 缓存

Spotify 推出一款名为 Studio by Spotify Labs 的新桌面应用，该应用利用人工智能从用户的电子邮件、日历和文档中生成个性化播客，直接与 Google 的 NotebookLM 竞争。

0 人收藏 0 人点赞

#audio-ai

@juberti: gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点（pp），目前已接近性能饱和。

X AI KOLs Following ↗ · 2026-05-07

GPT-Realtime-2 在 Big Bench Audio 基准测试中较 1.5 版本提升了 15 个百分点，性能已接近饱和水平。

0 人收藏 0 人点赞

#audio-ai

APEX：面向 AI 生成音乐的规模化多任务美学感知流行度预测

Hugging Face Daily Papers ↗ · 2026-05-05 缓存

APEX 是一个大规模的 multi-task learning 框架，利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度，在不同的生成架构上展现出了强大的泛化能力。

0 人收藏 0 人点赞

#audio-ai

使用 Lyria 3 进行开发：我们最新的音乐生成模型

Google AI Blog ↗ · 2026-03-25 缓存

Google 已发布 Lyria 3，这是其最新的音乐生成模型，开发者可通过 Gemini API 和 Google AI Studio 获取。该模型提供两个版本：适用于完整歌曲创作的 Lyria 3 Pro 和适用于制作较短片段的 Lyria 3 Clip，支持对节奏、歌词的调节以及图像转音乐的多模态输入。

0 人收藏 0 人点赞

#audio-ai

DolphinGemma：Google AI 如何帮助破译海豚通信

Google DeepMind Blog ↗ · 2025-04-14 缓存

Google 开发了 DolphinGemma，一个大语言模型，旨在学习和生成海豚的鸣叫声。该项目与乔治亚理工学院和 Wild Dolphin Project 合作，旨在推进对海豚沟通模式的理解，并实现潜在的物种间对话。

0 人收藏 0 人点赞

audio-ai

提交意见反馈