Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练
摘要
本文介绍了Live Music Diffusion Models(LMDMs),它通过修改扩散过程,实现了高效的块式处理以及新颖的训练范式,从而在消费级硬件上进行实时交互式音乐生成,在推理复杂度上超越了离散自回归模型,并实现了稳定的后训练对齐。
查看缓存全文
缓存时间: 2026/05/22 22:22
论文页面 - Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators
来源:https://huggingface.co/papers/2605.22717 作者:
,
,
,
,
,
,
,
,
,
摘要
音频扩散模型通过高效的逐块处理和新型训练范式,实现了在消费级硬件上的实时性能,从而适用于交互式音乐生成。
交互式流式音乐生成有望利用生成模型(https://huggingface.co/papers?q=generative%20models)实现现场表演和共同创作,这是离线模型无法做到的。然而,当前最先进的模型存在于离散自回归领域,在训练和推理时都需要工业级算力。在这项工作中,我们研究了音频扩散模型(https://huggingface.co/papers?q=audio%20diffusion%20models)——虽然它们在开源社区得到了广泛支持,但具有非流式双向特性——能否被高效地改造成可在消费级硬件上使用的交互式模型。通过批判性地审视现有的逐块外扩扩散(https://huggingface.co/papers?q=block-wise%20outpainting)流程,我们发现了推理过程中的关键低效问题,导致其计算效率严格低于离散自回归同类模型。我们提出了Live Music Diffusion Models(https://huggingface.co/papers?q=Live%20Music%20Diffusion%20Models)(LMDMs),这是对生成扩散过程的一个简单修改,通过逐块 KV 缓存(https://huggingface.co/papers?q=block-wise%20KV%20Caching)恢复并超越离散 Live Music Models(LMMs)的推理复杂度(https://huggingface.co/papers?q=inference%20complexity)。与 LMMs 不同,LMDMs 通过我们新颖的 ARC-Forcing 范式(https://huggingface.co/papers?q=ARC-Forcing%20paradigm)进一步实现了稳定的训练后对齐,无需任何显式的强化学习或奖励模型即可减少误差累积。我们展示了 LMDMs 在多个创意领域的应用,包括文本条件生成、基于草图的音乐合成以及即兴合奏。最后,我们展示了 LMDMs 如何在真实的人机协同创作中作为生成式乐器(https://huggingface.co/papers?q=generative%20instrument),充当“生成式延迟”效果,在消费级游戏笔记本上本地运行时,实时转换音乐家的即兴演奏,以获得可变的音色效果。
查看 arXiv 页面(https://arxiv.org/abs/2605.22717) 查看 PDF(https://arxiv.org/pdf/2605.22717) 项目页面(https://stephenbrade.github.io/lmdm-public/) GitHub5(https://github.com/ZacharyNovack/live-music-diffusion-models) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22717)
在你的智能体中获取此论文:
hf papers read 2605.22717
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。
引用此论文的数据集 0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。
引用此论文的 Space 0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。
包含此论文的收藏 0
暂无收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
可学习性引导的扩散语言模型微调
我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。
DEMON:音乐编排噪声扩散引擎
DEMON 提出了一种实时扩散引擎,通过控制去噪过程实现现场音乐演奏,在单块 RTX 5090 上每秒可完成多达 12.3 次解码器推理。它引入了异构调度、共享可变状态、逐帧混合和窗口化 VAE 解码,以实现响应式控制。
语言生成作为最优控制:潜在控制空间中的闭环扩散
本文将语言生成重新表述为随机最优控制问题,解决了自回归和扩散模型的局限性,并提出了使用Flow Matching在潜在控制空间中的闭环扩散方法,实现了高保真生成和高效并行采样。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
通过熵门控连续比特流扩散缩小语言建模中的自回归差距
本文介绍了一种扩散语言模型,将文本视为二进制比特流上的连续过程,利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果,同时降低了内存占用。