Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练

Hugging Face Daily Papers 论文

摘要

本文介绍了Live Music Diffusion Models(LMDMs),它通过修改扩散过程,实现了高效的块式处理以及新颖的训练范式,从而在消费级硬件上进行实时交互式音乐生成,在推理复杂度上超越了离散自回归模型,并实现了稳定的后训练对齐。

交互式流式音乐生成有望将生成模型用于现场表演和协同创作,这是离线模型无法实现的。然而,当前SOTA模型属于离散自回归(discrete-AR)领域,在训练和推理时都需要工业级的计算资源。在这项工作中,我们研究音频扩散模型(虽然开源社区广泛支持,但具有非流式的双向性质)能否被高效地重新利用,成为可在消费级硬件上运行的交互式模型。通过批判性地审视现代逐块外推扩散流程,我们发现了推理过程中的关键低效环节,这些环节导致其计算效率严格低于离散自回归模型。我们提出了Live Music Diffusion Models(LMDMs),这是对生成扩散过程的一个简单修改,通过逐块KV缓存恢复了并超越了离散Live Music Models(LMMs)的推理复杂度。与LMMs不同,LMDMs通过我们新颖的ARC-Forcing范式进一步实现了稳定的后训练对齐,无需任何显式的强化学习或奖励模型即可减少误差累积。我们展示了LMDMs在多个创意领域的应用,包括文本条件生成、基于草图的音乐合成以及即兴合奏。最后,我们展示了如何将LMDMs用作真实的艺术家-AI协作中的生成乐器,利用LMDMs作为"生成延迟"来实时变换音乐家的即兴演奏,产生可变的音色效果,同时在一个消费级游戏笔记本电脑上本地运行。
查看原文
查看缓存全文

缓存时间: 2026/05/22 22:22

论文页面 - Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

来源:https://huggingface.co/papers/2605.22717 作者:

,

,

,

,

,

,

,

,

,

摘要

音频扩散模型通过高效的逐块处理和新型训练范式,实现了在消费级硬件上的实时性能,从而适用于交互式音乐生成。

交互式流式音乐生成有望利用生成模型(https://huggingface.co/papers?q=generative%20models)实现现场表演和共同创作,这是离线模型无法做到的。然而,当前最先进的模型存在于离散自回归领域,在训练和推理时都需要工业级算力。在这项工作中,我们研究了音频扩散模型(https://huggingface.co/papers?q=audio%20diffusion%20models)——虽然它们在开源社区得到了广泛支持,但具有非流式双向特性——能否被高效地改造成可在消费级硬件上使用的交互式模型。通过批判性地审视现有的逐块外扩扩散(https://huggingface.co/papers?q=block-wise%20outpainting)流程,我们发现了推理过程中的关键低效问题,导致其计算效率严格低于离散自回归同类模型。我们提出了Live Music Diffusion Models(https://huggingface.co/papers?q=Live%20Music%20Diffusion%20Models)(LMDMs),这是对生成扩散过程的一个简单修改,通过逐块 KV 缓存(https://huggingface.co/papers?q=block-wise%20KV%20Caching)恢复并超越离散 Live Music Models(LMMs)的推理复杂度(https://huggingface.co/papers?q=inference%20complexity)。与 LMMs 不同,LMDMs 通过我们新颖的 ARC-Forcing 范式(https://huggingface.co/papers?q=ARC-Forcing%20paradigm)进一步实现了稳定的训练后对齐,无需任何显式的强化学习或奖励模型即可减少误差累积。我们展示了 LMDMs 在多个创意领域的应用,包括文本条件生成、基于草图的音乐合成以及即兴合奏。最后,我们展示了 LMDMs 如何在真实的人机协同创作中作为生成式乐器(https://huggingface.co/papers?q=generative%20instrument),充当“生成式延迟”效果,在消费级游戏笔记本上本地运行时,实时转换音乐家的即兴演奏,以获得可变的音色效果。

查看 arXiv 页面(https://arxiv.org/abs/2605.22717) 查看 PDF(https://arxiv.org/pdf/2605.22717) 项目页面(https://stephenbrade.github.io/lmdm-public/) GitHub5(https://github.com/ZacharyNovack/live-music-diffusion-models) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22717)

在你的智能体中获取此论文:

hf papers read 2605.22717

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。

引用此论文的 Space 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。

包含此论文的收藏 0

暂无收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

可学习性引导的扩散语言模型微调

arXiv cs.CL

我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。

DEMON:音乐编排噪声扩散引擎

Hugging Face Daily Papers

DEMON 提出了一种实时扩散引擎,通过控制去噪过程实现现场音乐演奏,在单块 RTX 5090 上每秒可完成多达 12.3 次解码器推理。它引入了异构调度、共享可变状态、逐帧混合和窗口化 VAE 解码,以实现响应式控制。

FlowLM: 基于扩散-流适配的少步语言建模

arXiv cs.CL

FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。