Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

本文介绍了Live Music Diffusion Models（LMDMs），它通过修改扩散过程，实现了高效的块式处理以及新颖的训练范式，从而在消费级硬件上进行实时交互式音乐生成，在推理复杂度上超越了离散自回归模型，并实现了稳定的后训练对齐。

交互式流式音乐生成有望将生成模型用于现场表演和协同创作，这是离线模型无法实现的。然而，当前SOTA模型属于离散自回归（discrete-AR）领域，在训练和推理时都需要工业级的计算资源。在这项工作中，我们研究音频扩散模型（虽然开源社区广泛支持，但具有非流式的双向性质）能否被高效地重新利用，成为可在消费级硬件上运行的交互式模型。通过批判性地审视现代逐块外推扩散流程，我们发现了推理过程中的关键低效环节，这些环节导致其计算效率严格低于离散自回归模型。我们提出了Live Music Diffusion Models（LMDMs），这是对生成扩散过程的一个简单修改，通过逐块KV缓存恢复了并超越了离散Live Music Models（LMMs）的推理复杂度。与LMMs不同，LMDMs通过我们新颖的ARC-Forcing范式进一步实现了稳定的后训练对齐，无需任何显式的强化学习或奖励模型即可减少误差累积。我们展示了LMDMs在多个创意领域的应用，包括文本条件生成、基于草图的音乐合成以及即兴合奏。最后，我们展示了如何将LMDMs用作真实的艺术家-AI协作中的生成乐器，利用LMDMs作为"生成延迟"来实时变换音乐家的即兴演奏，产生可变的音色效果，同时在一个消费级游戏笔记本电脑上本地运行。

查看原文

查看缓存全文

缓存时间: 2026/05/22 22:22

论文页面 - Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

来源：https://huggingface.co/papers/2605.22717 作者：

摘要

音频扩散模型通过高效的逐块处理和新型训练范式，实现了在消费级硬件上的实时性能，从而适用于交互式音乐生成。

交互式流式音乐生成有望利用生成模型（https://huggingface.co/papers?q=generative%20models）实现现场表演和共同创作，这是离线模型无法做到的。然而，当前最先进的模型存在于离散自回归领域，在训练和推理时都需要工业级算力。在这项工作中，我们研究了音频扩散模型（https://huggingface.co/papers?q=audio%20diffusion%20models）——虽然它们在开源社区得到了广泛支持，但具有非流式双向特性——能否被高效地改造成可在消费级硬件上使用的交互式模型。通过批判性地审视现有的逐块外扩扩散（https://huggingface.co/papers?q=block-wise%20outpainting）流程，我们发现了推理过程中的关键低效问题，导致其计算效率严格低于离散自回归同类模型。我们提出了Live Music Diffusion Models（https://huggingface.co/papers?q=Live%20Music%20Diffusion%20Models）（LMDMs），这是对生成扩散过程的一个简单修改，通过逐块 KV 缓存（https://huggingface.co/papers?q=block-wise%20KV%20Caching）恢复并超越离散 Live Music Models（LMMs）的推理复杂度（https://huggingface.co/papers?q=inference%20complexity）。与 LMMs 不同，LMDMs 通过我们新颖的 ARC-Forcing 范式（https://huggingface.co/papers?q=ARC-Forcing%20paradigm）进一步实现了稳定的训练后对齐，无需任何显式的强化学习或奖励模型即可减少误差累积。我们展示了 LMDMs 在多个创意领域的应用，包括文本条件生成、基于草图的音乐合成以及即兴合奏。最后，我们展示了 LMDMs 如何在真实的人机协同创作中作为生成式乐器（https://huggingface.co/papers?q=generative%20instrument），充当“生成式延迟”效果，在消费级游戏笔记本上本地运行时，实时转换音乐家的即兴演奏，以获得可变的音色效果。

查看 arXiv 页面（https://arxiv.org/abs/2605.22717）查看 PDF（https://arxiv.org/pdf/2605.22717）项目页面（https://stephenbrade.github.io/lmdm-public/） GitHub5（https://github.com/ZacharyNovack/live-music-diffusion-models）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.22717）

在你的智能体中获取此论文：

hf papers read 2605.22717

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。

引用此论文的 Space 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.22717 以从此页面链接。

包含此论文的收藏 0

暂无收藏包含此论文

将此论文添加到一个收藏（https://huggingface.co/new-collection）中以从此页面链接。

Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练

论文页面 - Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

可学习性引导的扩散语言模型微调

DEMON：音乐编排噪声扩散引擎

语言生成作为最优控制：潜在控制空间中的闭环扩散

FlowLM: 基于扩散-流适配的少步语言建模

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

提交意见反馈