PianoKontext: 从平淡上下文中生成富有表现力的演奏

Hugging Face Daily Papers 论文

摘要

PianoKontext 通过在潜在空间中利用动态时间规整对齐音频和MIDI,以及使用DiT模块的流匹配,从平淡的MIDI乐谱中生成可变长度的富有表现力的钢琴演奏。

表现性演奏渲染(EPR)旨在生成受限于音符序列的逼真演奏。然而,流匹配音频编辑模型仅操作相同长度的同步音乐样本,限制了其对表现性节奏的理解。我们提出了PianoKontext,一个针对古典钢琴音乐的流匹配渲染模型,该模型在预训练的Music2Latent模型的潜在空间中生成可变长度的演奏。我们将MIDI乐谱合成为平淡音频,并在潜在空间中采用动态时间规整(DTW)来构建成对训练数据。对齐后的嵌入在DiT模块中拼接,从而简单有效地学习乐谱与演奏之间的依赖关系。音频样本可在我们的演示页面获取:https://realfolkcode.github.io/pianokontext_demo/。
查看原文
查看缓存全文

缓存时间: 2026/06/12 10:52

论文页面 - PianoKontext:从平淡上下文中生成富有表现力的演奏渲染

来源:https://huggingface.co/papers/2606.12282
发布于 6月10日

·

提交者:https://huggingface.co/realfolkcode

Dmitry (https://huggingface.co/realfolkcode) 于 6月12日

摘要

PianoKontext 通过在潜在空间中使用 DTW 和 DiT 块将 MIDI 乐谱与音频对齐,生成可变长度的钢琴演奏。

富有表现力的演奏渲染(EPR)旨在生成受音符序列约束的逼真演奏。然而,流匹配(https://huggingface.co/papers?q=flow%20matching)和音频编辑模型(https://huggingface.co/papers?q=audio%20editing%20models)只能操纵相同时长的同步音乐样本,限制了它们对富有表现力的时间控制(https://huggingface.co/papers?q=expressive%20timing)的理解。我们引入了 PianoKontext(https://huggingface.co/papers?q=PianoKontext),这是一个基于流匹配(https://huggingface.co/papers?q=flow%20matching)的古典钢琴音乐渲染模型,它在预训练的 Music2Latent(https://huggingface.co/papers?q=Music2Latent)模型的潜在空间(https://huggingface.co/papers?q=latent%20space)中生成可变长度的演奏。我们将 MIDI 乐谱合成为平淡音频,并在潜在空间(https://huggingface.co/papers?q=latent%20space)中使用动态时间规整(https://huggingface.co/papers?q=Dynamic%20Time%20Warping)(DTW)来构建用于训练的配对数据。对齐后的嵌入在 DiT 块(https://huggingface.co/papers?q=DiT%20blocks)中拼接,从而简单有效地学习乐谱与演奏之间的依赖关系。音频样本可在我们的演示页面获取:https://realfolkcode.github.io/pianokontext_demo/。

查看 arXiv 页面(https://arxiv.org/abs/2606.12282)
查看 PDF(https://arxiv.org/pdf/2606.12282)
项目页面(https://realfolkcode.github.io/pianokontext_demo)
GitHub1(https://github.com/realfolkcode/pianokontext)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12282)

在您的代理中获取此论文:

hf papers read 2606.12282

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。

引用此论文的空间0

暂无空间关联此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。

包含此论文的收藏0

暂无收藏包含此论文

请将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从该页面链接。

相似文章

PianoCoRe:整合与优化的大规模钢琴MIDI数据集

Hugging Face Daily Papers

PianoCoRe是一个大规模钢琴MIDI数据集,对开源音乐语料库进行统一和优化,包含5,625首作品、483位作曲家的250,046个演奏版本,提供音符级乐谱对齐,适用于音乐信息检索任务,并包含一个MIDI质量分类器和对齐优化流程。

Coffee Piano

Product Hunt

Coffee Piano 是一个基于浏览器的钢琴工作室,提供用于音乐创作的视觉和声工具。

DramaBox by Resemble AI

Product Hunt

DramaBox by Resemble AI 将场景描述转换为 AI 生成的人声表演。