PianoKontext: 从平淡上下文中生成富有表现力的演奏
摘要
PianoKontext 通过在潜在空间中利用动态时间规整对齐音频和MIDI,以及使用DiT模块的流匹配,从平淡的MIDI乐谱中生成可变长度的富有表现力的钢琴演奏。
查看缓存全文
缓存时间: 2026/06/12 10:52
论文页面 - PianoKontext:从平淡上下文中生成富有表现力的演奏渲染
来源:https://huggingface.co/papers/2606.12282
发布于 6月10日
·
提交者:https://huggingface.co/realfolkcode
Dmitry (https://huggingface.co/realfolkcode) 于 6月12日
摘要
PianoKontext 通过在潜在空间中使用 DTW 和 DiT 块将 MIDI 乐谱与音频对齐,生成可变长度的钢琴演奏。
富有表现力的演奏渲染(EPR)旨在生成受音符序列约束的逼真演奏。然而,流匹配(https://huggingface.co/papers?q=flow%20matching)和音频编辑模型(https://huggingface.co/papers?q=audio%20editing%20models)只能操纵相同时长的同步音乐样本,限制了它们对富有表现力的时间控制(https://huggingface.co/papers?q=expressive%20timing)的理解。我们引入了 PianoKontext(https://huggingface.co/papers?q=PianoKontext),这是一个基于流匹配(https://huggingface.co/papers?q=flow%20matching)的古典钢琴音乐渲染模型,它在预训练的 Music2Latent(https://huggingface.co/papers?q=Music2Latent)模型的潜在空间(https://huggingface.co/papers?q=latent%20space)中生成可变长度的演奏。我们将 MIDI 乐谱合成为平淡音频,并在潜在空间(https://huggingface.co/papers?q=latent%20space)中使用动态时间规整(https://huggingface.co/papers?q=Dynamic%20Time%20Warping)(DTW)来构建用于训练的配对数据。对齐后的嵌入在 DiT 块(https://huggingface.co/papers?q=DiT%20blocks)中拼接,从而简单有效地学习乐谱与演奏之间的依赖关系。音频样本可在我们的演示页面获取:https://realfolkcode.github.io/pianokontext_demo/。
查看 arXiv 页面(https://arxiv.org/abs/2606.12282)
查看 PDF(https://arxiv.org/pdf/2606.12282)
项目页面(https://realfolkcode.github.io/pianokontext_demo)
GitHub1(https://github.com/realfolkcode/pianokontext)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12282)
在您的代理中获取此论文:
hf papers read 2606.12282
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。
引用此论文的空间0
暂无空间关联此论文
请在空间 README.md 中引用 arxiv.org/abs/2606.12282 以从该页面链接。
包含此论文的收藏0
暂无收藏包含此论文
请将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从该页面链接。
相似文章
PianoCoRe:整合与优化的大规模钢琴MIDI数据集
PianoCoRe是一个大规模钢琴MIDI数据集,对开源音乐语料库进行统一和优化,包含5,625首作品、483位作曲家的250,046个演奏版本,提供音符级乐谱对齐,适用于音乐信息检索任务,并包含一个MIDI质量分类器和对齐优化流程。
Coffee Piano
Coffee Piano 是一个基于浏览器的钢琴工作室,提供用于音乐创作的视觉和声工具。
@danshipper: Codex 教我弹钢琴
一条推文分享了OpenAI的Codex被用于教钢琴,并附有演示链接。
PersonaLive!用于直播的生动肖像图像动画
PersonaLive 是一个基于扩散模型的框架,用于直播中的实时生动肖像动画,通过混合隐式信号和自回归流式生成实现了显著的速度提升。
DramaBox by Resemble AI
DramaBox by Resemble AI 将场景描述转换为 AI 生成的人声表演。