MuSViT：面向乐谱表示的基础视觉模型

Hugging Face Daily Papers 2026/06/30 00:00 论文

vision-transformer sheet-music music-ai foundation-model masked-autoencoders imslp

摘要

MuSViT是首个面向乐谱的基础视觉模型，通过掩码自编码器在数百万页乐谱上预训练，在乐谱识别和符号检测任务中取得卓越性能。

基础模型通过提供丰富、可复用的表示，推动了视觉和语言处理领域的变革，这些表示可迁移至各种任务。乐谱作为音乐语言的视觉编码，却缺乏强大的领域特定基础模型。我们提出MuSViT（Music Score Vision Transformer）：首个面向乐谱表示的基础视觉模型——一个基于Vision Transformer（ViT）的编码器，通过掩码自编码器在来自IMSLP的970万页乐谱上预训练。为处理现实世界乐谱的复杂性，我们采用两阶段课程：先在排版乐谱上合成预热，再在完整IMSLP语料库上进行大规模训练。我们在四个下游任务上评估MuSViT——全页和谱表级乐谱识别、音乐符号检测、以及乐谱难度分类——并采用两种场景：线性探测（冻结编码器）和微调。在线性探测下，MuSViT consistently优于现代视觉编码器，表明通用表示无论规模如何，在音乐记谱的结构化符号属性上系统性不足。在微调下，MuSViT普遍改进了任务特定的最先进方法。额外的嵌入-转录一致性分析显示，MuSViT直接在其表示空间中编码了符号化的音乐结构——而其他编码器的嵌入与音乐符号内容不相关。这些结果确立了MuSViT作为乐谱理解基础模型骨干的地位。

查看原文

查看缓存全文

缓存时间: 2026/07/01 11:42

论文页 - MuSViT：一种用于乐谱表示的基础视觉模型

来源：https://huggingface.co/papers/2606.31811

摘要

MuSViT 是一种基于视觉变换器的基础模型，在数百万张乐谱页面上进行了预训练。通过线性探测和微调两种方法，该模型在乐谱识别和符号检测任务中展现出卓越性能。

基础模型（https://huggingface.co/papers?q=Foundation%20model）通过提供丰富、可复用的表示，并能在不同任务间迁移，已经改变了视觉和语言处理领域。乐谱（https://huggingface.co/papers?q=Sheet%20music）作为音乐语言的视觉编码形式，却缺乏这样一个强大的领域专用骨干网络。我们提出了 MuSViT（Music Score Vision Transformer，https://huggingface.co/papers?q=Vision%20Transformer）：首个用于乐谱（https://huggingface.co/papers?q=sheet%20music）表示的基础视觉模型——它是一个 ViT 编码器（https://huggingface.co/papers?q=ViT%20encoder），通过掩码自编码器（https://huggingface.co/papers?q=Masked%20Autoencoders）在来自 IMSLP（https://huggingface.co/papers?q=IMSLP）的 970 万页数据上进行预训练。为了处理真实乐谱的复杂性，我们采用了两阶段课程：先对排版乐谱进行合成预热（https://huggingface.co/papers?q=synthetic%20warm-up），然后在完整的 IMSLP（https://huggingface.co/papers?q=IMSLP）语料库上进行大规模训练。我们在四个下游任务上评估了 MuSViT——整页和谱表级别的乐谱识别（https://huggingface.co/papers?q=music%20score%20recognition）、音乐符号检测（https://huggingface.co/papers?q=music%20symbol%20detection）以及谱面难度分类——在两种场景下：线性探测（https://huggingface.co/papers?q=linear%20probing）（冻结编码器）和微调（https://huggingface.co/papers?q=fine-tuning）。在线性探测（https://huggingface.co/papers?q=linear%20probing）下，MuSViT 始终优于现代视觉编码器，这表明通用表示，无论规模大小，在音乐记谱的结构化符号属性上系统性地存在不足。在微调（https://huggingface.co/papers?q=fine-tuning）下，MuSViT 普遍优于特定任务的最新方法。一项额外的嵌入-转录一致性（https://huggingface.co/papers?q=embedding-transcription%20consistency）分析揭示，MuSViT 直接在其表示空间中编码了符号音乐结构——而其他编码器的嵌入与音乐记谱内容并不相关。这些结果确立了 MuSViT 作为乐谱（https://huggingface.co/papers?q=sheet%20music）理解的基础骨干网络。

查看 arXiv 页面（https://arxiv.org/abs/2606.31811）查看 PDF（https://arxiv.org/pdf/2606.31811）项目页面（https://grfia.dlsi.ua.es/musvit/）GitHub0（https://github.com/OMR-PRAIG-UA-ES/MuSViT）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.31811）

在你的代理中获取该论文：

hf papers read 2606.31811

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型2

PRAIG/musvit-light 39.4M• 25分钟前更新（https://huggingface.co/PRAIG/musvit-light）

PRAIG/musvit 0.1B• 25分钟前更新 • 124（https://huggingface.co/PRAIG/musvit）

引用该论文的数据集0

暂无与该论文相关联的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2606.31811，以从该页链接到它。

引用该论文的空间0

暂无与该论文相关联的空间

请在空间的 README.md 中引用 arxiv.org/abs/2606.31811，以从该页链接到它。

MuSViT：面向乐谱表示的基础视觉模型

论文页 - MuSViT：一种用于乐谱表示的基础视觉模型

摘要

引用该论文的模型2

PRAIG/musvit-light 39.4M• 25分钟前更新（https://huggingface.co/PRAIG/musvit-light）

PRAIG/musvit 0.1B• 25分钟前更新 • 124（https://huggingface.co/PRAIG/musvit）

引用该论文的数据集0

引用该论文的空间0

包含该论文的合集1

相似文章

ViMU：视频隐喻理解基准

@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型：https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示：https://hug…

MVEB：大规模视频嵌入基准

MetaphorVU：面向隐喻视频理解

MSAVBench：迈向多镜头音视频生成的全面可靠评估

提交意见反馈