MARCO:探索语义对应中未见空间的航行器
摘要
MARCO 提出一种轻量高速的语义对应模型,通过由粗到精的目标与自蒸馏框架结合 DINOv2,在未知关键点上也达到 SOTA 精度与泛化能力。
查看缓存全文
缓存时间: 2026/04/21 19:46
论文页面 - MARCO:穿越语义对应“看不见”的空间
来源:https://huggingface.co/papers/2604.18267
摘要
MARCO 是一个轻量、高速的模型,通过“由粗到精”目标与自蒸馏框架,结合 DINOv2 与扩散主干,在训练数据之外显著提升语义对应精度与泛化能力。
近期语义对应(https://huggingface.co/papers?q=semantic%20correspondence)进展依赖双编码器架构(https://huggingface.co/papers?q=dual-encoder%20architectures),将 DINOv2(https://huggingface.co/papers?q=DINOv2)与扩散主干(https://huggingface.co/papers?q=diffusion%20backbones)结合。这些十亿级参数模型虽然准确,但对训练关键点之外的泛化不佳,暴露出基准性能与真实可用性之间的鸿沟:实际查询点极少与训练时所见吻合。
我们在 DINOv2 基础上提出 MARCO,一个面向可泛化对应的统一模型,其全新训练框架同时增强细粒度定位(https://huggingface.co/papers?q=fine-grained%20localization)与语义泛化(https://huggingface.co/papers?q=semantic%20generalization)。通过“由粗到精”目标提升空间精度,并辅以自蒸馏框架将稀疏监督(https://huggingface.co/papers?q=sparse%20supervision)扩展到标注区域之外,我们的方法将少量关键点转化为稠密、语义一致的对应。
MARCO 在 SPair-71k、AP-10K、PF-PASCAL 上刷新 SOTA,细粒度定位阈值处提升更明显(+8.9 [email protected]),对未见关键点(+5.1,SPair-U)与类别(+4.7,MP-100)泛化最强,体积仅扩散方法的 1/3,速度提升 10 倍。
代码开源:https://github.com/visinf/MARCO
查看 arXiv 页面(https://arxiv.org/abs/2604.18267)
查看 PDF(https://arxiv.org/pdf/2604.18267)
项目主页(https://visinf.github.io/MARCO)
GitHub(https://github.com/visinf/MARCO)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18267)
在智能体中阅读本文:
hf papers read 2604.18267
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.18267,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.18267,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.18267,即可在此页面显示链接。
包含该论文的收藏 0
暂无收藏包含该论文
创建收藏 并添加该论文,即可在此页面显示链接。
相似文章
超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索
论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。
DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。
FineSteer: 大规模语言模型推理时细粒度控制的统一框架
FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。
RemoteZero:实现零人工标注的地理空间推理
RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。
元学习上下文学习实现无需训练的跨被试脑解码
# 论文页面 - 元学习上下文学习实现无需训练的跨被试脑解码 来源:[https://huggingface.co/papers/2604.08537](https://huggingface.co/papers/2604.08537) 作者:,,,,,,,,,,,,, ## 摘要 一种元优化方法通过少量图像-脑示例快速推断个体独特神经编码模式,无需跨被试及扫描仪微调,即可实现可泛化的语义视觉解码。[视觉解码](https://huggingface.co/papers?q