MuSViT:面向乐谱表示的基础视觉模型

Hugging Face Daily Papers 论文

摘要

MuSViT是首个面向乐谱的基础视觉模型,通过掩码自编码器在数百万页乐谱上预训练,在乐谱识别和符号检测任务中取得卓越性能。

基础模型通过提供丰富、可复用的表示,推动了视觉和语言处理领域的变革,这些表示可迁移至各种任务。乐谱作为音乐语言的视觉编码,却缺乏强大的领域特定基础模型。我们提出MuSViT(Music Score Vision Transformer):首个面向乐谱表示的基础视觉模型——一个基于Vision Transformer(ViT)的编码器,通过掩码自编码器在来自IMSLP的970万页乐谱上预训练。为处理现实世界乐谱的复杂性,我们采用两阶段课程:先在排版乐谱上合成预热,再在完整IMSLP语料库上进行大规模训练。我们在四个下游任务上评估MuSViT——全页和谱表级乐谱识别、音乐符号检测、以及乐谱难度分类——并采用两种场景:线性探测(冻结编码器)和微调。在线性探测下,MuSViT consistently优于现代视觉编码器,表明通用表示无论规模如何,在音乐记谱的结构化符号属性上系统性不足。在微调下,MuSViT普遍改进了任务特定的最先进方法。额外的嵌入-转录一致性分析显示,MuSViT直接在其表示空间中编码了符号化的音乐结构——而其他编码器的嵌入与音乐符号内容不相关。这些结果确立了MuSViT作为乐谱理解基础模型骨干的地位。
查看原文
查看缓存全文

缓存时间: 2026/07/01 11:42

论文页 - MuSViT:一种用于乐谱表示的基础视觉模型

来源:https://huggingface.co/papers/2606.31811

摘要

MuSViT 是一种基于视觉变换器的基础模型,在数百万张乐谱页面上进行了预训练。通过线性探测和微调两种方法,该模型在乐谱识别和符号检测任务中展现出卓越性能。

基础模型(https://huggingface.co/papers?q=Foundation%20model)通过提供丰富、可复用的表示,并能在不同任务间迁移,已经改变了视觉和语言处理领域。乐谱(https://huggingface.co/papers?q=Sheet%20music)作为音乐语言的视觉编码形式,却缺乏这样一个强大的领域专用骨干网络。我们提出了 MuSViT(Music Score Vision Transformer,https://huggingface.co/papers?q=Vision%20Transformer):首个用于乐谱(https://huggingface.co/papers?q=sheet%20music)表示的基础视觉模型——它是一个 ViT 编码器(https://huggingface.co/papers?q=ViT%20encoder),通过掩码自编码器(https://huggingface.co/papers?q=Masked%20Autoencoders)在来自 IMSLP(https://huggingface.co/papers?q=IMSLP)的 970 万页数据上进行预训练。为了处理真实乐谱的复杂性,我们采用了两阶段课程:先对排版乐谱进行合成预热(https://huggingface.co/papers?q=synthetic%20warm-up),然后在完整的 IMSLP(https://huggingface.co/papers?q=IMSLP)语料库上进行大规模训练。我们在四个下游任务上评估了 MuSViT——整页和谱表级别的乐谱识别(https://huggingface.co/papers?q=music%20score%20recognition)、音乐符号检测(https://huggingface.co/papers?q=music%20symbol%20detection)以及谱面难度分类——在两种场景下:线性探测(https://huggingface.co/papers?q=linear%20probing)(冻结编码器)和微调(https://huggingface.co/papers?q=fine-tuning)。在线性探测(https://huggingface.co/papers?q=linear%20probing)下,MuSViT 始终优于现代视觉编码器,这表明通用表示,无论规模大小,在音乐记谱的结构化符号属性上系统性地存在不足。在微调(https://huggingface.co/papers?q=fine-tuning)下,MuSViT 普遍优于特定任务的最新方法。一项额外的嵌入-转录一致性(https://huggingface.co/papers?q=embedding-transcription%20consistency)分析揭示,MuSViT 直接在其表示空间中编码了符号音乐结构——而其他编码器的嵌入与音乐记谱内容并不相关。这些结果确立了 MuSViT 作为乐谱(https://huggingface.co/papers?q=sheet%20music)理解的基础骨干网络。

查看 arXiv 页面(https://arxiv.org/abs/2606.31811)查看 PDF(https://arxiv.org/pdf/2606.31811)项目页面(https://grfia.dlsi.ua.es/musvit/)GitHub0(https://github.com/OMR-PRAIG-UA-ES/MuSViT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.31811)

在你的代理中获取该论文:

hf papers read 2606.31811

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型2

PRAIG/musvit-light 39.4M• 25分钟前更新(https://huggingface.co/PRAIG/musvit-light)

PRAIG/musvit 0.1B• 25分钟前更新 • 124(https://huggingface.co/PRAIG/musvit)

引用该论文的数据集0

暂无与该论文相关联的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2606.31811,以从该页链接到它。

引用该论文的空间0

暂无与该论文相关联的空间

请在空间的 README.md 中引用 arxiv.org/abs/2606.31811,以从该页链接到它。

包含该论文的合集1

相似文章

ViMU:视频隐喻理解基准

Hugging Face Daily Papers

ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。

MVEB:大规模视频嵌入基准

Hugging Face Daily Papers

本文介绍了MVEB,一个大规模的视频嵌入基准,涵盖23个任务,发现没有单一模型占据主导地位,并且音频的贡献取决于数据集注释的来源。它整合到MTEB生态系统中,用于统一的多模态评估。

MetaphorVU:面向隐喻视频理解

Hugging Face Daily Papers

本文介绍了MetaphorVU-Bench,这是首个针对隐喻视频理解的系统化基准,并提出了MetaphorBoost,一种推理时增强框架,可改善多模态大语言模型中的跨域映射。