标签
Higgs Audio v3 是一个 4B 参数的 TTS 模型,专为语音聊天应用设计,支持 100 种语言并具备内联控制能力。
SpurAudio 是一个新的基准测试,旨在评估少样本音频分类中的捷径学习与虚假相关性问题。研究表明,当背景相关性被打破时,包括大型预训练音频基础模型在内的最先进方法均出现显著的性能下降。
SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。
OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。
Spotify 推出一款名为 Studio by Spotify Labs 的新桌面应用,该应用利用人工智能从用户的电子邮件、日历和文档中生成个性化播客,直接与 Google 的 NotebookLM 竞争。
GPT-Realtime-2 在 Big Bench Audio 基准测试中较 1.5 版本提升了 15 个百分点,性能已接近饱和水平。
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。
Google 已发布 Lyria 3,这是其最新的音乐生成模型,开发者可通过 Gemini API 和 Google AI Studio 获取。该模型提供两个版本:适用于完整歌曲创作的 Lyria 3 Pro 和适用于制作较短片段的 Lyria 3 Clip,支持对节奏、歌词的调节以及图像转音乐的多模态输入。
Google 开发了 DolphinGemma,一个大语言模型,旨在学习和生成海豚的鸣叫声。该项目与乔治亚理工学院和 Wild Dolphin Project 合作,旨在推进对海豚沟通模式的理解,并实现潜在的物种间对话。