MuseNet
摘要
OpenAI 发布了 MuseNet,一个基于 GPT-2 架构的深度神经网络,通过从数十万个 MIDI 文件中学习模式,能够生成 4 分钟的音乐作品,包含 10 种乐器。该模型可以结合多种音乐风格并以新颖的方式融合它们。
我们创建了 MuseNet,一个深度神经网络,可以生成包含 10 种不同乐器的 4 分钟音乐作品,并可以融合从乡村音乐到莫扎特再到披头士乐队的多种风格。MuseNet 不是通过明确编程我们对音乐的理解来实现的,而是通过学习预测数十万个 MIDI 文件中的下一个音符来发现和声、节奏和风格的规律。MuseNet 采用与 GPT-2 相同的通用无监督技术,GPT-2 是一个大规模的 Transformer 模型,经过训练能够预测序列中的下一个音符,无论是音频还是文本。
查看缓存全文
缓存时间:
2026/04/20 14:55
# MuseNet
来源:https://openai.com/index/musenet/
我们创建了MuseNet,一个深度神经网络,能够生成4分钟长的音乐作品,包含10种不同乐器,并可以融合从乡村音乐到莫扎特再到披头士的各种风格。MuseNet并未被明确编程以理解音乐,而是通过学习预测数百万MIDI文件中的下一个token,自主发现了和谐、节奏和风格的规律。MuseNet使用与GPT-2相同的通用无监督技术(https://openai.com/index/better-language-models/),这是一个大规模的transformer(https://arxiv.org/abs/1706.03762)模型,训练目标是预测序列中的下一个token,无论是音频还是文本。
由于MuseNet掌握许多不同的风格,我们可以以新颖的方式融合生成的音乐。A(https://openai.com/index/musenet/#citation-bottom-A)在这个例子中,模型给定了肖邦夜曲的前6个音符,但要求它用钢琴、鼓、贝斯和吉他生成一首流行音乐风格的作品。模型成功地融合了这两种风格,整个乐队在大约30秒时加入:
我们从许多不同的来源为MuseNet收集训练数据。ClassicalArchives(https://www.classicalarchives.com/)和BitMidi(https://bitmidi.com/)为这个项目捐献了他们庞大的MIDI文件收藏,我们还在线找到了多个集合,包括爵士、流行、非洲、印度和阿拉伯风格。此外,我们还使用了MAESTRO数据集(https://arxiv.org/abs/1810.12247)。
transformer在序列数据上进行训练:给定一组音符,我们要求它预测即将到来的音符。我们尝试了几种不同的方式将MIDI文件编码成适合这个任务的token。首先是和弦方向的方法,将同一时间内所有同时发出的音符的每个组合视为一个单独的"和弦",并为每个和弦分配一个token。其次,我们尝试通过仅关注音符的开始来压缩音乐模式,并尝试使用字节对编码方案进一步压缩。
我们还尝试了两种不同的时间标记方法:一种是根据作品的速度缩放的token(使token代表音乐的拍子或拍子的分数),另一种是标记秒为单位的绝对时间的token。我们最终采用了一种结合表达力和简洁性的编码方法:将音高、音量和乐器信息合并为单个token。
相似文章
Google DeepMind Blog
Google DeepMind 扩展了 Music AI Sandbox,新增功能包括 Lyria 2 音乐生成模型,并向美国音乐人开放更广泛的访问权限,通过用于生成、扩展和编辑音乐内容的工具来实现 AI 辅助音乐创作。
Meta AI Blog
隆重推出 Muse Spark,这是一项旨在实现个人超级智能扩展的新人工智能计划。
OpenAI Blog
# Jukebox 来源:[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐,它指定了时序和音高
OpenAI Blog
OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。
Hugging Face Daily Papers
ArtifactNet是一个轻量级神经网络框架,通过分析音频信号中的编码器特定工件来检测AI生成的音乐,在新的6,183轨道基准测试(ArtifactBench)上达到F1=0.9829,参数量比竞争方法少49倍。该方法采用法证物理学原理,通过有界掩码UNet和紧凑型CNN提取编码器残差,编码器感知训练将跨编码器漂移减少83%。