PianoKontext: 从平淡上下文中生成富有表现力的演奏

Hugging Face Daily Papers 2026/06/10 00:00 论文

music-generation piano flow-matching expressive-performance audio-synthesis midi dynamic-time-warping

摘要

PianoKontext 通过在潜在空间中利用动态时间规整对齐音频和MIDI，以及使用DiT模块的流匹配，从平淡的MIDI乐谱中生成可变长度的富有表现力的钢琴演奏。

表现性演奏渲染（EPR）旨在生成受限于音符序列的逼真演奏。然而，流匹配音频编辑模型仅操作相同长度的同步音乐样本，限制了其对表现性节奏的理解。我们提出了PianoKontext，一个针对古典钢琴音乐的流匹配渲染模型，该模型在预训练的Music2Latent模型的潜在空间中生成可变长度的演奏。我们将MIDI乐谱合成为平淡音频，并在潜在空间中采用动态时间规整（DTW）来构建成对训练数据。对齐后的嵌入在DiT模块中拼接，从而简单有效地学习乐谱与演奏之间的依赖关系。音频样本可在我们的演示页面获取：https://realfolkcode.github.io/pianokontext_demo/。

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:52

论文页面 - PianoKontext：从平淡上下文中生成富有表现力的演奏渲染

来源：https://huggingface.co/papers/2606.12282
发布于 6月10日

提交者：https://huggingface.co/realfolkcode

Dmitry (https://huggingface.co/realfolkcode) 于 6月12日

摘要

PianoKontext 通过在潜在空间中使用 DTW 和 DiT 块将 MIDI 乐谱与音频对齐，生成可变长度的钢琴演奏。

富有表现力的演奏渲染（EPR）旨在生成受音符序列约束的逼真演奏。然而，流匹配（https://huggingface.co/papers?q=flow%20matching）和音频编辑模型（https://huggingface.co/papers?q=audio%20editing%20models）只能操纵相同时长的同步音乐样本，限制了它们对富有表现力的时间控制（https://huggingface.co/papers?q=expressive%20timing）的理解。我们引入了 PianoKontext（https://huggingface.co/papers?q=PianoKontext），这是一个基于流匹配（https://huggingface.co/papers?q=flow%20matching）的古典钢琴音乐渲染模型，它在预训练的 Music2Latent（https://huggingface.co/papers?q=Music2Latent）模型的潜在空间（https://huggingface.co/papers?q=latent%20space）中生成可变长度的演奏。我们将 MIDI 乐谱合成为平淡音频，并在潜在空间（https://huggingface.co/papers?q=latent%20space）中使用动态时间规整（https://huggingface.co/papers?q=Dynamic%20Time%20Warping）（DTW）来构建用于训练的配对数据。对齐后的嵌入在 DiT 块（https://huggingface.co/papers?q=DiT%20blocks）中拼接，从而简单有效地学习乐谱与演奏之间的依赖关系。音频样本可在我们的演示页面获取：https://realfolkcode.github.io/pianokontext_demo/。

查看 arXiv 页面（https://arxiv.org/abs/2606.12282）
查看 PDF（https://arxiv.org/pdf/2606.12282）
项目页面（https://realfolkcode.github.io/pianokontext_demo）
GitHub1（https://github.com/realfolkcode/pianokontext）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.12282）

在您的代理中获取此论文：

hf papers read 2606.12282

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。

引用此论文的空间0

暂无空间关联此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。

包含此论文的收藏0

暂无收藏包含此论文

请将此论文添加到一个收藏（https://huggingface.co/new-collection）中以从该页面链接。

PianoKontext: 从平淡上下文中生成富有表现力的演奏

论文页面 - PianoKontext：从平淡上下文中生成富有表现力的演奏渲染

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏0

相似文章

PianoCoRe：整合与优化的大规模钢琴MIDI数据集

Coffee Piano

@danshipper: Codex 教我弹钢琴

@iScienceLuvr: Music-JEPA: 从动作中学习声音的世界模型 "我们提出使用JEPA学习钢琴声音的世界模型，通过…"

Wan-Dancer: 一种用于分钟级别连贯音乐到舞蹈生成的层次化框架

提交意见反馈