audio-ai

#audio-ai

@juberti: gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点（pp），目前已接近性能饱和。

X AI KOLs Following ↗ · 2天前

GPT-Realtime-2 在 Big Bench Audio 基准测试中较 1.5 版本提升了 15 个百分点，性能已接近饱和水平。

0 人收藏 0 人点赞

#audio-ai

APEX：面向 AI 生成音乐的规模化多任务美学感知流行度预测

Hugging Face Daily Papers ↗ · 5天前缓存

APEX 是一个大规模的 multi-task learning 框架，利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度，在不同的生成架构上展现出了强大的泛化能力。

0 人收藏 0 人点赞

#audio-ai

使用 Lyria 3 进行开发：我们最新的音乐生成模型

Google AI Blog ↗ · 2026-03-25 缓存

Google 已发布 Lyria 3，这是其最新的音乐生成模型，开发者可通过 Gemini API 和 Google AI Studio 获取。该模型提供两个版本：适用于完整歌曲创作的 Lyria 3 Pro 和适用于制作较短片段的 Lyria 3 Clip，支持对节奏、歌词的调节以及图像转音乐的多模态输入。

0 人收藏 0 人点赞

#audio-ai

DolphinGemma：Google AI 如何帮助破译海豚通信

Google DeepMind Blog ↗ · 2025-04-14 缓存

Google 开发了 DolphinGemma，一个大语言模型，旨在学习和生成海豚的鸣叫声。该项目与乔治亚理工学院和 Wild Dolphin Project 合作，旨在推进对海豚沟通模式的理解，并实现潜在的物种间对话。

0 人收藏 0 人点赞

audio-ai

@juberti: gpt-realtime-2 在 Big Bench Audio 基准测试上相较于 1.5 版本提升了 15 个百分点（pp），目前已接近性能饱和。

APEX：面向 AI 生成音乐的规模化多任务美学感知流行度预测

使用 Lyria 3 进行开发：我们最新的音乐生成模型

DolphinGemma：Google AI 如何帮助破译海豚通信

提交意见反馈