MusTBENCH:音乐LLMs中时间定位的基准测试与进展
摘要
MusTBench是一个用于评估大型音频-语言模型(LALMs)在音乐理解中的时间定位能力的基准。作者提出了MusT,一种四阶段训练方案,能显著提升现有模型的时间定位性能。
arXiv:2605.29300v1 Announce Type: new
摘要:近期的大型音频-语言模型(LALMs)在理解音乐内容方面展现出了有前景的能力。然而,这些模型的回答是否基于音频中正确的时间区域仍未被充分探索。这一局限对于音乐理解尤为关键,因为关键信息往往以时间局部事件的形式出现,例如乐器进入和节奏转换。为了解决这一问题,我们推出了MusTBENCH,一个经音乐专家验证的基准,通过五类基于时间定位的问答任务来评估LALMs的时间定位能力。为了进一步提升现有模型的时间定位能力,我们提出了MusT,一种新颖的四阶段时间优化方案,涵盖音乐编码器适配、LLM适配、LLM监督微调以及基于强化学习的优化。在MusTBENCH上的实验表明,现有LALMs在精确时间定位方面存在困难,而MusT相比强基线带来了显著改进。这些结果确立了时间定位是当前LALMs中缺失的关键能力,并将MusTBENCH定位为未来时间定位音乐理解研究的一个具有挑战性的基准。
查看缓存全文
缓存时间: 2026/05/29 09:18
# 音乐 LLM 中时间定位的基准测试与推进 来源:https://arxiv.org/html/2605.29300 Daeyong Kwon¹,²,Qiyu Wu²,Shinobu Kuriya²,Junghyun Koo³,Shuyang Cui²,Zhi Zhong²,Wei‑Hsiang Liao³,Hiromi Wakaki²,Yuki Mitsufuji²,³ ¹首尔国立大学 ²索尼集团公司 ³索尼AI ¹[email protected] ²,³{first_name.last_name}@sony.com *在索尼集团公司实习期间完成的工作。* †通讯作者:Qiyu Wu, [email protected] ###### 摘要 近期大型音频语言模型(LALM)在理解音乐内容方面展现出令人期待的能力。然而,这些模型的响应是否基于音频中正确的时间区域仍未被充分探究。这一局限性对于音乐理解尤为关键,因为音乐中的关键信息往往表现为时间上局部化的事件,例如乐器进入和节奏转换。为填补这一空白,我们提出了 **MusTBench**,一个经音乐专家验证的基准测试,旨在通过五项时间定位问答任务评估 LALM 的时间定位能力。为了进一步提升现有模型的时间定位能力,我们提出了 **MusT**,一种新颖的四阶段时间优化方案,涵盖音乐编码器适配、大语言模型适配、大语言模型监督微调以及基于强化学习的优化。在 **MusTBench** 上的实验表明,现有 LALM 在精确时间定位方面存在困难,而 **MusT** 在强基线基础上带来了显著改进。这些结果将时间定位确立为当前 LALM 中一项缺失的关键能力,并将 **MusTBench** 定位为未来时间定位音乐理解研究的一个具有挑战性的基准测试。¹¹¹代码和基准数据即将发布。 **MusTBench:音乐 LLM 中时间定位的基准测试与推进** Daeyong Kwon¹,²*†*†通讯作者:Qiyu Wu, [email protected],Qiyu Wu²*†*†通讯作者:Qiyu Wu, [email protected],Shinobu Kuriya²,Junghyun Koo³,Shuyang Cui²,Zhi Zhong²,Wei‑Hsiang Liao³,Hiromi Wakaki²,Yuki Mitsufuji²,³ ¹首尔国立大学 ²索尼集团公司 ³索尼AI ¹[email protected] ²,³{first_name.last_name}@sony.com ## 1 引言 参见说明图 1:(左) **MusTBench** 示例展示了五种时间定位音乐推理问题。(右) **MusTBench** 上的性能比较,展示了开源基线与 **MusT** 在五个时间定位任务上的表现,体现了我们方法带来的一致性提升。数值已归一化。 音乐理解长期以来一直是一个具有挑战性的问题,原因在于音乐音频的复杂属性。近期 Tang 等人 (2023 (https://arxiv.org/html/2605.29300#bib.bib14));Chu 等人 (2024 (https://arxiv.org/html/2605.29300#bib.bib17)) 在大型音频语言模型(LALM)方面的进展将其能力扩展到了非语音领域,例如音乐。最先进的模型如 Qwen3 Omni (Yang 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib1)) 和 Music Flamingo (Ghosh 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib2)) 能够生成具有丰富属性的音乐曲目描述,这表明 LALM 日益具备理解复杂音乐内容的能力。然而,详细的音乐描述并不一定意味着时间定位能力。时间定位对于音乐理解尤为关键,因为关键信息往往通过时间上局部化或演变的事件发生,例如乐器进入以及音色、和声或节奏的变化 (Paulus 等人,2010 (https://arxiv.org/html/2605.29300#bib.bib48))。由于已知 LALM 有时会产生幻觉 (Cheng 等人,2026 (https://arxiv.org/html/2605.29300#bib.bib50)),诸如“曲目随着吉他的进入而演变”这样看似合理的描述并不足以证明模型对音频具有时间定位能力。除非模型还能识别吉他进入的时间区域,否则这样的说法仍难以验证。我们将此能力称为**音乐时间定位**:将关于音乐内容的文本声明与音频中该声明得以声学支持的具体时间点或区间相关联的能力。然而,现有的音乐基准测试主要评估曲目级别的描述 (Agostinelli 等人,2023 (https://arxiv.org/html/2605.29300#bib.bib9)) 或通用音频问答任务 (Weck 等人,2024 (https://arxiv.org/html/2605.29300#bib.bib25)),这使得时间定位在很大程度上未被充分探索。 为填补这一空白,我们引入了 **MusicTemporalBenchmark**(**MusTBench**),一个经音乐专家验证的基准测试,用于评估 LALM 的时间定位能力。**MusTBench** 包含五项时间定位问答任务:时间源定位(TSG)、局部转换识别(LTR)、转换感知描述(TAD)、全局时间排序(GTO)和情绪轨迹推理(MTR)。这些任务共同评估模型将音乐事件定位到其发生的具体时刻或区间的能力。图 1 (https://arxiv.org/html/2605.29300#S1.F1) 展示了每个任务类别的示例,并预览了模型性能。我们的评估表明,现有模型在时间定位方面仍然有限。例如,在 TSG 这一最基本的定位任务中,模型需要根据完整的音乐曲目预测乐器或人声首次进入或最终退出的时间。即使在这个简单任务上,当前的 LALM 也表现出系统性失败。它们尤其难以识别偏移量,经常将预测坍缩到粗略的时间锚点(如 60 秒或 120 秒),有时甚至会生成超出音频有效时长的时间戳。结合在 **MusTBench** 上的更广泛诊断,这些观察结果表明,当前模型往往依赖粗略的时间先验,而非将其响应精确地定位在输入音频中,这表明缺乏基本的时序感知能力。 为了进一步提升现有模型的时间定位能力,我们提出了 **MusT**,一种四阶段时间优化方案,涵盖音乐编码器适配、基于时间戳音乐描述的大语言模型适配、监督时间问答微调以及基于强化学习的优化。该方案使模型具备转换感知的时间表征,让大语言模型适应带时间戳的音乐理解,并直接优化时间戳级和区间级的定位能力。全面的实验表明,**MusT** 在强基线基础上带来了显著改进。 我们的贡献总结如下:(1) 我们确定时间定位是当前 LALM 在音乐理解中缺失的一项关键能力;(2) 我们引入了 **MusTBench**,一个经音乐专家验证的基准测试,通过五项时间定位问答任务评估全长度音乐中的时间定位能力;(3) 我们提出了 **MusT**,一种四阶段时间优化方案,能在强 LALM 基线上显著提升时间定位能力。这些贡献共同为推进音乐理解中的时间定位提供了一个具有挑战性的基准测试和实用的训练方案。 ## 2 相关工作 ##### 音乐 LLM。 近期 LALM 已将音乐理解从固定标签预测扩展到描述生成、问答和指令跟随 (Agostinelli 等人,2023 (https://arxiv.org/html/2605.29300#bib.bib9);Deng 等人,2024 (https://arxiv.org/html/2605.29300#bib.bib49))。面向音乐的 LLM,如 MU‑LLaMA (Liu 等人,2024a (https://arxiv.org/html/2605.29300#bib.bib3)) 和 MuMu‑LLaMA (Liu 等人,2024b (https://arxiv.org/html/2605.29300#bib.bib13)),将音乐表征与语言模型对齐,而通用音频语言模型,如 Qwen‑Omni 系列 (Xu 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib16);Yang 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib1)) 和 Music Flamingo (Ghosh 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib2)),在音乐推理任务上展示了强大性能。这些模型能够生成关于情绪、流派和节奏等音乐属性的描述,但它们的时间定位能力仍未得到充分探索。 ##### 音乐理解基准测试。 现有的基于音频的音乐基准测试主要评估全局音乐理解。诸如 MusicQA (Liu 等人,2024a (https://arxiv.org/html/2605.29300#bib.bib3))、MusicInstruct (Deng 等人,2024 (https://arxiv.org/html/2605.29300#bib.bib49))、MusicCaps (Agostinelli 等人,2023 (https://arxiv.org/html/2605.29300#bib.bib9))、MagnaTagATune (Law 等人,2009 (https://arxiv.org/html/2605.29300#bib.bib27)) 和 MuChoMusic (Weck 等人,2024 (https://arxiv.org/html/2605.29300#bib.bib25)) 等数据集测试模型是否能识别音乐内容或回答关于整体音频的问题。虽然这些基准测试对于评估音乐感知和语言生成有用,但它们很少要求模型将答案定位到具体的时间戳或时间区间。 ##### 时间定位。 时间定位已在视频、视听和通用音频理解领域得到研究,其中模型从自然语言查询中定位时刻或声音事件 (Li 等人,2022 (https://arxiv.org/html/2605.29300#bib.bib18);Chowdhury 等人,2024 (https://arxiv.org/html/2605.29300#bib.bib19);Xu 等人,2021 (https://arxiv.org/html/2605.29300#bib.bib35))。最近的研究表明,音频语言模型可能表现出时间偏见,包括幻觉事件和不正确的时序排序 (Yao 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib21)),而时间戳感知的音频描述可以改善时间对齐 (Kumar 等人,2026 (https://arxiv.org/html/2605.29300#bib.bib34))。然而,音乐提出了独特的挑战,因为有意义的变化往往通过乐器编配、节奏、和声和情绪强度的演变而产生,而非作为孤立的离散声音事件出现。在本工作中,我们通过评估 LALM 是否能将这类音乐特有的变化定位到音频中的具体时刻来填补这一空白,并提供一个实用的训练方案来改进现有模型。 参见说明图 2:**MusTBench** 构建流程概览。(A) 通过分割、情绪变化建模、特征驱动的描述生成以及交叉验证与重写,生成带时间戳的音乐描述。(B) 从分轨 MIDI 标注、带时间戳的音乐描述和人工标注中生成问答对。所有生成的问答对均在人类音乐专家的协助下进行验证,以产生最终的基准测试。 ## 3 MusTBench 我们引入 **MusTBench**:一个用于评估音乐理解中时间定位能力的基准测试。**MusTBench** 的构建包括 (1) 构建一个带时间戳的音乐描述数据集,以及 (2) 为时间定位的不同方面生成五种类型的问答任务。图 2 (https://arxiv.org/html/2605.29300#S2.F2) 提供了完整数据生成流程的概览。 ### 3.1 带时间戳的音乐描述生成 为了构建时间感知特征,我们首先从 MTG‑Jamendo (Bogdanov 等人,2019 (https://arxiv.org/html/2605.29300#bib.bib22)) 的全曲目音频中构建带时间戳的描述。这些描述作为中间标注,用于识别音乐状态和转换。如图 2 (https://arxiv.org/html/2605.29300#S2.F2)‑A 所示,该过程包含四个步骤: 1. **分割**:我们应用一个结构音乐分割模型 (Hao 等人,2025 (https://arxiv.org/html/2605.29300#bib.bib4)) 来获取片段边界,这些边界作为候选转换时间戳。 2. **情绪变化建模**:我们收集采样转换片段的人工标注,并训练一个基于 MERT 的预测器 (Li 等人,2024 (https://arxiv.org/html/2605.29300#bib.bib40)) 来估计片段边界周围情绪强度的变化。 3. **特征驱动的描述生成**:我们提取多样的音乐特征,并用它们生成片段级别的静态描述和边界级别的动态描述。 4. **交叉验证与重写**:我们使用额外的音乐分类器验证乐器和调性描述,然后重写相邻描述以提高连贯性,同时保留时间戳和音乐事实。 生成的带时间戳描述提供了时间对齐的音乐证据,用于后续的时间戳预训练和问答生成。实现细节见 §A.2 (https://arxiv.org/html/2605.29300#A1.SS2)。 ### 3.2 MusTBench 问答生成 | 统计量 | 总体 | TSG | LTR | TAD | GTO | MTR | |----------|------|-----|-----|-----|-----|-----| | # 问答对 | 1,264 | 400 | 208 | 208 | 198 | 250 | | # 唯一歌曲 | 517 | 246 | 208 | 208 | 198 | 250 | | 平均时长 | 3分42秒 | 3分51秒 | 3分31秒 | 3分31秒 | 3分26秒 | 3分18秒 | 表 1:**MusTBench** 统计信息。总体歌曲数量是在合并不同任务类型之间的重叠后计算得出的。音频时长基于唯一歌曲计算。 | 问答任务 | 训练 | 验证 | 测试 | 总计 | |----------|------|------|------|------| | 时间源定位 (TSG) | 8,000 | 378 | 400 | 8,778 | | 局部转换识别 (LTR) | 8,000 | 764 | 208 | 8,972 | | 转换感知描述 (TAD) | 8,000 | 683 | 208 | 8,891 | | 全局时间排序 (GTO) | 8,000 | 767 | 198 | 8,965 | | 情绪轨迹推理 (MTR) | 8,000 | 1,975 | 250 | 10,225 | | **总计** | **40,000** | **4,567** | **1,264** | **45,831** | 表 2:按任务划分的训练/验证/测试集拆分统计。 为了全面评估时间定位能力,我们提出以下五种任务: **时间源定位(TSG)**。TSG 通过询问模型识别特定声源开始或结束的时间,来衡量最基本的时间定位能力。对于乐器问题,我们从 Slakh2100 (Manilow 等人,2019 (https://arxiv.org/html/2605.29300#bib.bib32)) 中与 MIDI 对齐的乐器轨中提取开始和结束时间。我们使用源分离器 (Rouard 等人,2023 (https://arxiv.org/html/2605.29300#bib.bib5)) 从 MTG‑Jamendo (Bogdanov 等人,2019 (https://arxiv.org/html/2605.29300#bib.bib22)) 构建人声问题,并通过音量过滤标注人声的开始和结束时间。对于这两种声源,我们仅保留目标声源音量足够高的示例,并且仅询问其首次或最后一次可听见的出现,从而使查询声源在感知上可识别,且真实时间点无歧义。 **局部转换识别(LTR)**。LTR 评估模型是否能识别与指定转换时间戳相对应的描述。给定完整音频和一个时间戳,模型必须从多个选项中选择最匹配该时刻音乐转换的描述。为了使任务更具挑战性,我们主要使用同一首歌中不同时间戳的真实转换描述作为干扰项,以防止模型仅依赖整体音乐语境这一捷径。 **转换感知描述(TAD)**。TAD 评估开放式的转换理解能力。给定完整音频和一个转换时间戳,模型需要描述该时刻周围的音乐变化。这消除了答案空间的限制,测试模型能否在没有预定义选项的情况下生成正确的、带时间定位的描述。 **全局时间排序(GTO)**。GTO 评估对多个转换事件的相对时间推理能力。我们从同一曲目中采样三个转换描述,并按随机顺序呈现。模型需要确定它们在歌曲中的正确时间顺序(共六种可能排列)。与关注局部转换的 LTR 和 TAD 不同,该任务评估模型是否能够推理分布在曲目全局结构中的多个事件。 **情绪轨迹推理(MTR)**。MTR 评估模型能否定位音乐情绪强度达到最高或最低的时间区间。使用分割模型得到的转换边界,我们应用训练好的情绪变化预测器(详见 §A.2.2 (https://arxiv.org/html/2605.29300#A1.SS2.SSS2)),通过累积求和变化值来标注每个转换片段,然后识别出...
相似文章
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。
MLUBench: 多模态大语言模型终身遗忘评估基准
MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。
面向一对多时序定位
本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。