MARCO:探索语义对应中未见空间的航行器

Hugging Face Daily Papers 论文

摘要

MARCO 提出一种轻量高速的语义对应模型,通过由粗到精的目标与自蒸馏框架结合 DINOv2,在未知关键点上也达到 SOTA 精度与泛化能力。

近期语义对应进展依赖双编码器架构,将 DINOv2 与扩散主干结合。虽然精度高,这些十亿级参数模型在训练关键点之外泛化乏力,暴露出基准性能与现实可用性之间的落差——查询点极少与训练时所见匹配。我们在 DINOv2 基础上提出 MARCO,一个面向可泛化对应的统一模型,其全新训练框架同时提升细粒度定位与语义泛化。通过将由粗到精的目标(细化空间精度)与自蒸馏框架(将稀疏监督扩展至标注区域之外)耦合,我们的方法把少量关键点转化为密集且语义一致的对应。MARCO 在 SPair-71k、AP-10K、PF-PASCAL 刷新 SOTA,细粒度定位阈值下提升更显著(+8.9 [email protected]),对未见关键点(+5.1,SPair-U)与类别(+4.7,MP-100)泛化最强,体积仅扩散方法的 1/3,速度提升 10 倍。代码已开源:https://github.com/visinf/MARCO
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 19:46

论文页面 - MARCO:穿越语义对应“看不见”的空间

来源:https://huggingface.co/papers/2604.18267

摘要

MARCO 是一个轻量、高速的模型,通过“由粗到精”目标与自蒸馏框架,结合 DINOv2 与扩散主干,在训练数据之外显著提升语义对应精度与泛化能力。

近期语义对应(https://huggingface.co/papers?q=semantic%20correspondence)进展依赖双编码器架构(https://huggingface.co/papers?q=dual-encoder%20architectures),将 DINOv2(https://huggingface.co/papers?q=DINOv2)与扩散主干(https://huggingface.co/papers?q=diffusion%20backbones)结合。这些十亿级参数模型虽然准确,但对训练关键点之外的泛化不佳,暴露出基准性能与真实可用性之间的鸿沟:实际查询点极少与训练时所见吻合。

我们在 DINOv2 基础上提出 MARCO,一个面向可泛化对应的统一模型,其全新训练框架同时增强细粒度定位(https://huggingface.co/papers?q=fine-grained%20localization)与语义泛化(https://huggingface.co/papers?q=semantic%20generalization)。通过“由粗到精”目标提升空间精度,并辅以自蒸馏框架将稀疏监督(https://huggingface.co/papers?q=sparse%20supervision)扩展到标注区域之外,我们的方法将少量关键点转化为稠密、语义一致的对应。

MARCO 在 SPair-71k、AP-10K、PF-PASCAL 上刷新 SOTA,细粒度定位阈值处提升更明显(+8.9 [email protected]),对未见关键点(+5.1,SPair-U)与类别(+4.7,MP-100)泛化最强,体积仅扩散方法的 1/3,速度提升 10 倍。

代码开源:https://github.com/visinf/MARCO

查看 arXiv 页面(https://arxiv.org/abs/2604.18267)
查看 PDF(https://arxiv.org/pdf/2604.18267)
项目主页(https://visinf.github.io/MARCO)
GitHub(https://github.com/visinf/MARCO)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18267)

在智能体中阅读本文:

hf papers read 2604.18267

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.18267,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18267,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.18267,即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含该论文

创建收藏 并添加该论文,即可在此页面显示链接。

相似文章

超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索

Hugging Face Daily Papers

论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

RemoteZero:实现零人工标注的地理空间推理

Hugging Face Daily Papers

RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。

元学习上下文学习实现无需训练的跨被试脑解码

Hugging Face Daily Papers

# 论文页面 - 元学习上下文学习实现无需训练的跨被试脑解码 来源:[https://huggingface.co/papers/2604.08537](https://huggingface.co/papers/2604.08537) 作者:,,,,,,,,,,,,, ## 摘要 一种元优化方法通过少量图像-脑示例快速推断个体独特神经编码模式,无需跨被试及扫描仪微调,即可实现可泛化的语义视觉解码。[视觉解码](https://huggingface.co/papers?q