和弦符号时间序列自适应能携带多少流派特征?多流派和弦符号建模的能力与边界

Hugging Face Daily Papers 论文

摘要

本文评估了小型自适应接口(LoRA、IA3、BitFit、前缀调优、全微调)如何将冻结的Music Transformer扩展到11个目标流派进行和弦符号时间序列建模。结果显示,虽然和声预测一致性提升,但流派特征表示有限,结论表明仅靠和弦符号不足以捕捉完整的流派特征。

和声是一个紧凑的符号层,其中数学音高关系、声学协和与音乐惯例交汇。本报告将和弦符号序列视为一种可解释、可控的时间序列,用于流派特定的和声建模,而非音乐的完整表示。从一个冻结的流行-爵士Music Transformer检查点开始,我评估了小型自适应接口能将模型扩展到11个目标流派的程度:蓝调、波萨诺瓦、巴赫众赞歌、乡村、电子、民谣、放克、福音、嘻哈、R&B/灵魂乐和摇滚。主要评估比较了LoRA、IA3、BitFit、前缀调优和全微调在11个流派和3个随机种子上的表现,构成完整的165个实验网格。所有五种方法在保留的和弦预测任务上均优于冻结的基础模型,宏观增益从+2.89到+3.61个百分点不等;LoRA和IA3得分最高,但经Holm和Benjamini-Hochberg校正的Wilcoxon检验未支持决定性的胜者。一个匹配数据量的对照实验进一步明确了这一点:当各流派子采样到相同的语料库大小时,IA3保持领先,但LoRA的全数据优势消失并跌至末位,表明微小差距部分由数据驱动。一个控制标记基线同样表现强劲,而错误流派适配器往往优于冻结基础,表明大部分效果来自基于可复用和声基础的轻量级条件化,而非特定适配器族。额外的诊断(秩扫描、错误流派轮换、基础检查点消融、仅和弦的流派分类、生成输出统计、真实歌曲评估和重复分析)支持一个有限的结论:和弦符号自适应确实改善了流派特定的和声预测,但仅靠和弦符号不足以携带完整的流派特征。因此,本报告避免关于感知流派真实性或完整音乐质量的论断,这些需要受控的听众或音乐家评估。
查看原文
查看缓存全文

缓存时间: 2026/06/08 11:15

论文页面 - 和弦符号时间序列适配能在多大程度上承载体裁标识?多体裁和弦符号建模的能力与边界

来源:https://huggingface.co/papers/2606.07334

摘要

小型适配接口可将冻结的音乐Transformer模型扩展到多种体裁,在和弦预测上呈现一致改进,但体裁标识表示能力有限。

和声是一个紧凑的符号层,数学音高关系、声学协和性与音乐惯例在此交汇。本报告不将和弦符号序列视为音乐的完整表示,而是将其当作一种可解释、可控的时间序列,用于局部体裁的和声建模。基于一个冻结的流行爵士音乐Transformer检查点,我评估了小型适配接口将模型扩展到11个目标体裁的能力:蓝调、波萨诺瓦、巴赫众赞歌、乡村、电子、民谣、放克、福音、嘻哈、R&B/灵魂乐和摇滚。主要评估比较了LoRA、IA3、BitFit、前缀微调与全参数微调,覆盖11个体裁和3个随机种子,构成完整的165单元网格。五种方法在保留和弦预测上均优于冻结基座,宏观增益从+2.89到+3.61个百分点不等;LoRA与IA3得分最高,但经过Holm和Benjamini-Hochberg校正的Wilcoxon检验未支持明确胜者。一项匹配数据量的对照实验进一步明确了结果:当各体裁子采样至统一语料规模时,IA3仍保持领先,但LoRA在全量数据上的优势消失并跌至末位,表明微小差异部分由数据驱动。控制标记基线也表现强劲,且错误体裁适配器经常优于冻结基座,说明大部分效果来自对可复用和声基座的轻量级条件约束,而非某一特定适配器家族。进一步的诊断(秩次扫描、错误体裁轮换、基座检查点消融、仅和弦体裁分类、生成输出统计、真实歌曲评估及重复性分析)支持一个有边界的结论:和弦符号适配能可靠改善局部体裁的和声预测,但仅有和弦符号无法完整承载体裁标识。因此,本报告避免关于感知体裁真实性或整体音乐质量的宣称——这需要受控的听众或演奏者评估。

查看arXiv页面 (https://arxiv.org/abs/2606.07334) 查看PDF (https://arxiv.org/pdf/2606.07334) 项目页面 (https://www.youtube.com/@StudioPearlLee) GitHub0 (https://github.com/PearlLeeStudio/TheArtist) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07334)

在您的agent中获取这篇论文:

hf papers read 2606\.07334

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型17

PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa 更新于约1小时前 • 145 • 1 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa)

PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline 更新于约1小时前 • 251 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline)

PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80 更新于约1小时前 • 282 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80)

PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67 更新于约1小时前 • 260 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67)

浏览引用该论文的17个模型 (https://huggingface.co/models?other=arxiv:2606.07334)

引用该论文的数据集0

没有数据集链接此论文

请在数据集的README.md中引用arxiv.org/abs/2606.07334以从此页面链接。

引用该论文的Spaces0

没有Space链接此论文

请在Space的README.md中引用arxiv.org/abs/2606.07334以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

深入解析:构建实时和弦识别器

Lobsters Hottest

本文解释了实时和弦识别器的技术架构,详细介绍了使用音级位掩码、候选生成、分数归一化和音乐启发式的四阶段流水线。

Chronicle:用于联合语言和时间序列理解的多模态基础模型

arXiv cs.LG

Chronicle 是一个 324M 参数的纯解码器 Transformer,从零开始在自然语言和时间序列上预训练,在 NLU 和时间序列分类任务上取得了有竞争力的性能,并在 UCR/UEA 数据集上的冻结嵌入时间序列分类中创造了新的最先进水平。

ADAPTOOD:面向分布外心电图时间序列模型的不确定性感知微调

arXiv cs.LG

ADAPTOOD 是一种新颖框架,利用数据不确定性量化分布偏移的严重程度,并指导心电图时间序列模型在分布外设置下的微调。它将不确定性估计与低秩模型更新和自适应超参数优化相结合,在现有OOD自适应方法基础上实现了高达7%的准确率提升和12.9%的精确度提升。