MuseNet

OpenAI Blog 2019/04/25 07:00 模型

music-generation transformer deep-learning gpt-2-based openai unsupervised-learning

摘要

OpenAI 发布了 MuseNet，一个基于 GPT-2 架构的深度神经网络，通过从数十万个 MIDI 文件中学习模式，能够生成 4 分钟的音乐作品，包含 10 种乐器。该模型可以结合多种音乐风格并以新颖的方式融合它们。

我们创建了 MuseNet，一个深度神经网络，可以生成包含 10 种不同乐器的 4 分钟音乐作品，并可以融合从乡村音乐到莫扎特再到披头士乐队的多种风格。MuseNet 不是通过明确编程我们对音乐的理解来实现的，而是通过学习预测数十万个 MIDI 文件中的下一个音符来发现和声、节奏和风格的规律。MuseNet 采用与 GPT-2 相同的通用无监督技术，GPT-2 是一个大规模的 Transformer 模型，经过训练能够预测序列中的下一个音符，无论是音频还是文本。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:55

# MuseNet 来源：https://openai.com/index/musenet/ 我们创建了MuseNet，一个深度神经网络，能够生成4分钟长的音乐作品，包含10种不同乐器，并可以融合从乡村音乐到莫扎特再到披头士的各种风格。MuseNet并未被明确编程以理解音乐，而是通过学习预测数百万MIDI文件中的下一个token，自主发现了和谐、节奏和风格的规律。MuseNet使用与GPT-2相同的通用无监督技术（https://openai.com/index/better-language-models/），这是一个大规模的transformer（https://arxiv.org/abs/1706.03762）模型，训练目标是预测序列中的下一个token，无论是音频还是文本。由于MuseNet掌握许多不同的风格，我们可以以新颖的方式融合生成的音乐。A（https://openai.com/index/musenet/#citation-bottom-A）在这个例子中，模型给定了肖邦夜曲的前6个音符，但要求它用钢琴、鼓、贝斯和吉他生成一首流行音乐风格的作品。模型成功地融合了这两种风格，整个乐队在大约30秒时加入：我们从许多不同的来源为MuseNet收集训练数据。ClassicalArchives（https://www.classicalarchives.com/）和BitMidi（https://bitmidi.com/）为这个项目捐献了他们庞大的MIDI文件收藏，我们还在线找到了多个集合，包括爵士、流行、非洲、印度和阿拉伯风格。此外，我们还使用了MAESTRO数据集（https://arxiv.org/abs/1810.12247）。 transformer在序列数据上进行训练：给定一组音符，我们要求它预测即将到来的音符。我们尝试了几种不同的方式将MIDI文件编码成适合这个任务的token。首先是和弦方向的方法，将同一时间内所有同时发出的音符的每个组合视为一个单独的"和弦"，并为每个和弦分配一个token。其次，我们尝试通过仅关注音符的开始来压缩音乐模式，并尝试使用字节对编码方案进一步压缩。我们还尝试了两种不同的时间标记方法：一种是根据作品的速度缩放的token（使token代表音乐的拍子或拍子的分数），另一种是标记秒为单位的绝对时间的token。我们最终采用了一种结合表达力和简洁性的编码方法：将音高、音量和乐器信息合并为单个token。

相似文章

Music AI Sandbox 推出新功能，访问权限扩大

Google DeepMind Blog

Google DeepMind 扩展了 Music AI Sandbox，新增功能包括 Lyria 2 音乐生成模型，并向美国音乐人开放更广泛的访问权限，通过用于生成、扩展和编辑音乐内容的工具来实现 AI 辅助音乐创作。

隆重推出 Muse Spark：迈向个人超级智能

Meta AI Blog

隆重推出 Muse Spark，这是一项旨在实现个人超级智能扩展的新人工智能计划。

Jukebox

OpenAI Blog

# Jukebox 来源：[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐，它指定了时序和音高

GPT-4

OpenAI Blog

OpenAI 发布 GPT-4，一个大型多模态模型，接受图像和文本输入，在专业和学术基准测试中表现出人类水平的性能，在各种评估指标上的表现明显优于 GPT-3.5。

ArtifactNet：通过法证残差物理学检测AI生成音乐

Hugging Face Daily Papers

ArtifactNet是一个轻量级神经网络框架，通过分析音频信号中的编码器特定工件来检测AI生成的音乐，在新的6,183轨道基准测试（ArtifactBench）上达到F1=0.9829，参数量比竞争方法少49倍。该方法采用法证物理学原理，通过有界掩码UNet和紧凑型CNN提取编码器残差，编码器感知训练将跨编码器漂移减少83%。