MuSViT:面向乐谱表示的基础视觉模型
摘要
MuSViT是首个面向乐谱的基础视觉模型,通过掩码自编码器在数百万页乐谱上预训练,在乐谱识别和符号检测任务中取得卓越性能。
查看缓存全文
缓存时间: 2026/07/01 11:42
论文页 - MuSViT:一种用于乐谱表示的基础视觉模型
来源:https://huggingface.co/papers/2606.31811
摘要
MuSViT 是一种基于视觉变换器的基础模型,在数百万张乐谱页面上进行了预训练。通过线性探测和微调两种方法,该模型在乐谱识别和符号检测任务中展现出卓越性能。
基础模型(https://huggingface.co/papers?q=Foundation%20model)通过提供丰富、可复用的表示,并能在不同任务间迁移,已经改变了视觉和语言处理领域。乐谱(https://huggingface.co/papers?q=Sheet%20music)作为音乐语言的视觉编码形式,却缺乏这样一个强大的领域专用骨干网络。我们提出了 MuSViT(Music Score Vision Transformer,https://huggingface.co/papers?q=Vision%20Transformer):首个用于乐谱(https://huggingface.co/papers?q=sheet%20music)表示的基础视觉模型——它是一个 ViT 编码器(https://huggingface.co/papers?q=ViT%20encoder),通过掩码自编码器(https://huggingface.co/papers?q=Masked%20Autoencoders)在来自 IMSLP(https://huggingface.co/papers?q=IMSLP)的 970 万页数据上进行预训练。为了处理真实乐谱的复杂性,我们采用了两阶段课程:先对排版乐谱进行合成预热(https://huggingface.co/papers?q=synthetic%20warm-up),然后在完整的 IMSLP(https://huggingface.co/papers?q=IMSLP)语料库上进行大规模训练。我们在四个下游任务上评估了 MuSViT——整页和谱表级别的乐谱识别(https://huggingface.co/papers?q=music%20score%20recognition)、音乐符号检测(https://huggingface.co/papers?q=music%20symbol%20detection)以及谱面难度分类——在两种场景下:线性探测(https://huggingface.co/papers?q=linear%20probing)(冻结编码器)和微调(https://huggingface.co/papers?q=fine-tuning)。在线性探测(https://huggingface.co/papers?q=linear%20probing)下,MuSViT 始终优于现代视觉编码器,这表明通用表示,无论规模大小,在音乐记谱的结构化符号属性上系统性地存在不足。在微调(https://huggingface.co/papers?q=fine-tuning)下,MuSViT 普遍优于特定任务的最新方法。一项额外的嵌入-转录一致性(https://huggingface.co/papers?q=embedding-transcription%20consistency)分析揭示,MuSViT 直接在其表示空间中编码了符号音乐结构——而其他编码器的嵌入与音乐记谱内容并不相关。这些结果确立了 MuSViT 作为乐谱(https://huggingface.co/papers?q=sheet%20music)理解的基础骨干网络。
查看 arXiv 页面(https://arxiv.org/abs/2606.31811)查看 PDF(https://arxiv.org/pdf/2606.31811)项目页面(https://grfia.dlsi.ua.es/musvit/)GitHub0(https://github.com/OMR-PRAIG-UA-ES/MuSViT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.31811)
在你的代理中获取该论文:
hf papers read 2606.31811
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型2
PRAIG/musvit-light 39.4M• 25分钟前更新(https://huggingface.co/PRAIG/musvit-light)
PRAIG/musvit 0.1B• 25分钟前更新 • 124(https://huggingface.co/PRAIG/musvit)
引用该论文的数据集0
暂无与该论文相关联的数据集
请在数据集的 README.md 中引用 arxiv.org/abs/2606.31811,以从该页链接到它。
引用该论文的空间0
暂无与该论文相关联的空间
请在空间的 README.md 中引用 arxiv.org/abs/2606.31811,以从该页链接到它。
包含该论文的合集1
相似文章
ViMU:视频隐喻理解基准
ViMU是首个旨在评估视频理解模型超越字面视觉理解、解读隐喻、讽刺及社会意义能力的基准,采用无提示的开放式和多项选择题。
@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型:https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示:https://hug…
Open_MOSS 开源 110 亿参数 Apache 2.0 视觉-语言模型 MOSS-VL,采用交叉注意力与 XRoPE,在 VSI-bench 上比 Qwen3-VL-8B 高 8.3 分。
MVEB:大规模视频嵌入基准
本文介绍了MVEB,一个大规模的视频嵌入基准,涵盖23个任务,发现没有单一模型占据主导地位,并且音频的贡献取决于数据集注释的来源。它整合到MTEB生态系统中,用于统一的多模态评估。
MetaphorVU:面向隐喻视频理解
本文介绍了MetaphorVU-Bench,这是首个针对隐喻视频理解的系统化基准,并提出了MetaphorBoost,一种推理时增强框架,可改善多模态大语言模型中的跨域映射。
MSAVBench:迈向多镜头音视频生成的全面可靠评估
MSAVBench是首个面向多镜头音视频生成的综合基准与自适应评估框架,评估了19个模型在多样化任务上的表现,并与人类判断实现了高度对齐。