和弦符号时间序列自适应能携带多少流派特征？多流派和弦符号建模的能力与边界

Hugging Face Daily Papers 2026/06/05 00:00 论文

music-ai transformer fine-tuning genre-adaptation chord-symbols lora ia3

摘要

本文评估了小型自适应接口（LoRA、IA3、BitFit、前缀调优、全微调）如何将冻结的Music Transformer扩展到11个目标流派进行和弦符号时间序列建模。结果显示，虽然和声预测一致性提升，但流派特征表示有限，结论表明仅靠和弦符号不足以捕捉完整的流派特征。

和声是一个紧凑的符号层，其中数学音高关系、声学协和与音乐惯例交汇。本报告将和弦符号序列视为一种可解释、可控的时间序列，用于流派特定的和声建模，而非音乐的完整表示。从一个冻结的流行-爵士Music Transformer检查点开始，我评估了小型自适应接口能将模型扩展到11个目标流派的程度：蓝调、波萨诺瓦、巴赫众赞歌、乡村、电子、民谣、放克、福音、嘻哈、R&B/灵魂乐和摇滚。主要评估比较了LoRA、IA3、BitFit、前缀调优和全微调在11个流派和3个随机种子上的表现，构成完整的165个实验网格。所有五种方法在保留的和弦预测任务上均优于冻结的基础模型，宏观增益从+2.89到+3.61个百分点不等；LoRA和IA3得分最高，但经Holm和Benjamini-Hochberg校正的Wilcoxon检验未支持决定性的胜者。一个匹配数据量的对照实验进一步明确了这一点：当各流派子采样到相同的语料库大小时，IA3保持领先，但LoRA的全数据优势消失并跌至末位，表明微小差距部分由数据驱动。一个控制标记基线同样表现强劲，而错误流派适配器往往优于冻结基础，表明大部分效果来自基于可复用和声基础的轻量级条件化，而非特定适配器族。额外的诊断（秩扫描、错误流派轮换、基础检查点消融、仅和弦的流派分类、生成输出统计、真实歌曲评估和重复分析）支持一个有限的结论：和弦符号自适应确实改善了流派特定的和声预测，但仅靠和弦符号不足以携带完整的流派特征。因此，本报告避免关于感知流派真实性或完整音乐质量的论断，这些需要受控的听众或音乐家评估。

查看原文

查看缓存全文

缓存时间: 2026/06/08 11:15

论文页面 - 和弦符号时间序列适配能在多大程度上承载体裁标识？多体裁和弦符号建模的能力与边界

来源：https://huggingface.co/papers/2606.07334

摘要

小型适配接口可将冻结的音乐Transformer模型扩展到多种体裁，在和弦预测上呈现一致改进，但体裁标识表示能力有限。

和声是一个紧凑的符号层，数学音高关系、声学协和性与音乐惯例在此交汇。本报告不将和弦符号序列视为音乐的完整表示，而是将其当作一种可解释、可控的时间序列，用于局部体裁的和声建模。基于一个冻结的流行爵士音乐Transformer检查点，我评估了小型适配接口将模型扩展到11个目标体裁的能力：蓝调、波萨诺瓦、巴赫众赞歌、乡村、电子、民谣、放克、福音、嘻哈、R&B/灵魂乐和摇滚。主要评估比较了LoRA、IA3、BitFit、前缀微调与全参数微调，覆盖11个体裁和3个随机种子，构成完整的165单元网格。五种方法在保留和弦预测上均优于冻结基座，宏观增益从+2.89到+3.61个百分点不等；LoRA与IA3得分最高，但经过Holm和Benjamini-Hochberg校正的Wilcoxon检验未支持明确胜者。一项匹配数据量的对照实验进一步明确了结果：当各体裁子采样至统一语料规模时，IA3仍保持领先，但LoRA在全量数据上的优势消失并跌至末位，表明微小差异部分由数据驱动。控制标记基线也表现强劲，且错误体裁适配器经常优于冻结基座，说明大部分效果来自对可复用和声基座的轻量级条件约束，而非某一特定适配器家族。进一步的诊断（秩次扫描、错误体裁轮换、基座检查点消融、仅和弦体裁分类、生成输出统计、真实歌曲评估及重复性分析）支持一个有边界的结论：和弦符号适配能可靠改善局部体裁的和声预测，但仅有和弦符号无法完整承载体裁标识。因此，本报告避免关于感知体裁真实性或整体音乐质量的宣称——这需要受控的听众或演奏者评估。

查看arXiv页面 (https://arxiv.org/abs/2606.07334) 查看PDF (https://arxiv.org/pdf/2606.07334) 项目页面 (https://www.youtube.com/@StudioPearlLee) GitHub0 (https://github.com/PearlLeeStudio/TheArtist) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07334)

在您的agent中获取这篇论文：

hf papers read 2606\.07334

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型17

PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa 更新于约1小时前 • 145 • 1 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa)

PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline 更新于约1小时前 • 251 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline)

PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80 更新于约1小时前 • 282 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80)

PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67 更新于约1小时前 • 260 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67)

浏览引用该论文的17个模型 (https://huggingface.co/models?other=arxiv:2606.07334)

引用该论文的数据集0

没有数据集链接此论文

请在数据集的README.md中引用arxiv.org/abs/2606.07334以从此页面链接。

引用该论文的Spaces0

没有Space链接此论文

请在Space的README.md中引用arxiv.org/abs/2606.07334以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

和弦符号时间序列自适应能携带多少流派特征？多流派和弦符号建模的能力与边界

论文页面 - 和弦符号时间序列适配能在多大程度上承载体裁标识？多体裁和弦符号建模的能力与边界

摘要

引用该论文的模型17

PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa 更新于约1小时前 • 145 • 1 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa)

PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline 更新于约1小时前 • 251 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline)

PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80 更新于约1小时前 • 282 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80)

PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67 更新于约1小时前 • 260 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67)

引用该论文的数据集0

引用该论文的Spaces0

包含该论文的收藏集0

相似文章

深入解析：构建实时和弦识别器

Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练

语言模型中的领域适应与推理框架：基于历史宇宙学的受控实验

Chronicle：用于联合语言和时间序列理解的多模态基础模型

ADAPTOOD：面向分布外心电图时间序列模型的不确定性感知微调

提交意见反馈