和弦符号时间序列自适应能携带多少流派特征?多流派和弦符号建模的能力与边界
摘要
本文评估了小型自适应接口(LoRA、IA3、BitFit、前缀调优、全微调)如何将冻结的Music Transformer扩展到11个目标流派进行和弦符号时间序列建模。结果显示,虽然和声预测一致性提升,但流派特征表示有限,结论表明仅靠和弦符号不足以捕捉完整的流派特征。
查看缓存全文
缓存时间: 2026/06/08 11:15
论文页面 - 和弦符号时间序列适配能在多大程度上承载体裁标识?多体裁和弦符号建模的能力与边界
来源:https://huggingface.co/papers/2606.07334
摘要
小型适配接口可将冻结的音乐Transformer模型扩展到多种体裁,在和弦预测上呈现一致改进,但体裁标识表示能力有限。
和声是一个紧凑的符号层,数学音高关系、声学协和性与音乐惯例在此交汇。本报告不将和弦符号序列视为音乐的完整表示,而是将其当作一种可解释、可控的时间序列,用于局部体裁的和声建模。基于一个冻结的流行爵士音乐Transformer检查点,我评估了小型适配接口将模型扩展到11个目标体裁的能力:蓝调、波萨诺瓦、巴赫众赞歌、乡村、电子、民谣、放克、福音、嘻哈、R&B/灵魂乐和摇滚。主要评估比较了LoRA、IA3、BitFit、前缀微调与全参数微调,覆盖11个体裁和3个随机种子,构成完整的165单元网格。五种方法在保留和弦预测上均优于冻结基座,宏观增益从+2.89到+3.61个百分点不等;LoRA与IA3得分最高,但经过Holm和Benjamini-Hochberg校正的Wilcoxon检验未支持明确胜者。一项匹配数据量的对照实验进一步明确了结果:当各体裁子采样至统一语料规模时,IA3仍保持领先,但LoRA在全量数据上的优势消失并跌至末位,表明微小差异部分由数据驱动。控制标记基线也表现强劲,且错误体裁适配器经常优于冻结基座,说明大部分效果来自对可复用和声基座的轻量级条件约束,而非某一特定适配器家族。进一步的诊断(秩次扫描、错误体裁轮换、基座检查点消融、仅和弦体裁分类、生成输出统计、真实歌曲评估及重复性分析)支持一个有边界的结论:和弦符号适配能可靠改善局部体裁的和声预测,但仅有和弦符号无法完整承载体裁标识。因此,本报告避免关于感知体裁真实性或整体音乐质量的宣称——这需要受控的听众或演奏者评估。
查看arXiv页面 (https://arxiv.org/abs/2606.07334) 查看PDF (https://arxiv.org/pdf/2606.07334) 项目页面 (https://www.youtube.com/@StudioPearlLee) GitHub0 (https://github.com/PearlLeeStudio/TheArtist) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07334)
在您的agent中获取这篇论文:
hf papers read 2606\.07334
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型17
PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa 更新于约1小时前 • 145 • 1 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-lora-bossa)
PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline 更新于约1小时前 • 251 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-pop-baseline)
PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80 更新于约1小时前 • 282 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop80)
PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67 更新于约1小时前 • 260 (https://huggingface.co/PearlLeeStudio/TheArtist-MusicTransformer-ft-pop67)
浏览引用该论文的17个模型 (https://huggingface.co/models?other=arxiv:2606.07334)
引用该论文的数据集0
没有数据集链接此论文
请在数据集的README.md中引用arxiv.org/abs/2606.07334以从此页面链接。
引用该论文的Spaces0
没有Space链接此论文
请在Space的README.md中引用arxiv.org/abs/2606.07334以从此页面链接。
包含该论文的收藏集0
没有收藏集包含此论文
添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
深入解析:构建实时和弦识别器
本文解释了实时和弦识别器的技术架构,详细介绍了使用音级位掩码、候选生成、分数归一化和音乐启发式的四阶段流水线。
Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练
本文介绍了Live Music Diffusion Models(LMDMs),它通过修改扩散过程,实现了高效的块式处理以及新颖的训练范式,从而在消费级硬件上进行实时交互式音乐生成,在推理复杂度上超越了离散自回归模型,并实现了稳定的后训练对齐。
语言模型中的领域适应与推理框架:基于历史宇宙学的受控实验
本文通过在哥白尼前的语料库上训练,研究领域适应如何重塑语言模型中的解释行为,发现微调对解释框架的转变大于对宇宙学立场的转变。
Chronicle:用于联合语言和时间序列理解的多模态基础模型
Chronicle 是一个 324M 参数的纯解码器 Transformer,从零开始在自然语言和时间序列上预训练,在 NLU 和时间序列分类任务上取得了有竞争力的性能,并在 UCR/UEA 数据集上的冻结嵌入时间序列分类中创造了新的最先进水平。
ADAPTOOD:面向分布外心电图时间序列模型的不确定性感知微调
ADAPTOOD 是一种新颖框架,利用数据不确定性量化分布偏移的严重程度,并指导心电图时间序列模型在分布外设置下的微调。它将不确定性估计与低秩模型更新和自适应超参数优化相结合,在现有OOD自适应方法基础上实现了高达7%的准确率提升和12.9%的精确度提升。