面向复杂非线性视觉目标跟踪的Segment Anything运动、几何与语义自适应
摘要
SAMOSA将SAM 2适配到视觉目标跟踪任务中,通过整合运动预测、语义检测和几何约束,提升在存在干扰物、遮挡和非线性运动的复杂场景下的鲁棒性和泛化能力。
查看缓存全文
缓存时间: 2026/05/22 06:30
论文页面 - 结合运动、几何与语义适配的复杂非线性视觉目标追踪分割一切模型
来源:https://huggingface.co/papers/2605.22538
摘要
SAMOSA 通过引入运动预测、语义检测和几何约束,对 SAM 2 进行适配,以提升在复杂场景下视觉目标追踪的鲁棒性和泛化能力。
传统视觉目标追踪(VOT)方法通常依赖任务特定的监督训练,这限制了其对未见目标及存在干扰物、遮挡和非线性运动的挑战性场景的泛化能力。近期以 SAM 2 为代表的视觉基础模型,通过大规模预训练学习到强大的视频理解先验知识,为构建更鲁棒、更具泛化性的追踪器提供了有前景的基础。然而,直接将 SAM 2 应用于 VOT 仍非最优,因为它没有显式建模目标的运动动态,也未在帧间施加几何和语义一致性约束,而这两点对于可靠追踪至关重要。为解决此问题,我们提出 SAMOSA,一种新的追踪框架,通过显式利用运动、几何和语义线索将 SAM 2 适配到复杂 VOT 场景。具体来说,我们引入一个轻量级非线性运动预测器来建模目标动态,并指导掩码选择和记忆过滤。我们进一步利用语义线索检测目标偏移并从追踪失败中恢复,同时将几何线索作为结构约束以提高追踪稳定性。通过这种方式,SAMOSA 弥合了 SAM 2 隐式视频理解先验与显式面向追踪建模之间的差距。大量实验表明,SAMOSA 在通用基准测试上持续优于基于 SAM 2 的最先进方法,展现出比有监督 VOT 方法更强的泛化能力,并在典型非线性运动场景的反无人机数据集上取得了显著提升。我们的代码已在 https://github.com/DurYi/SAMOSA 公开。
查看 arXiv 页面 (https://arxiv.org/abs/2605.22538) 查看 PDF (https://arxiv.org/pdf/2605.22538) GitHub1 (https://github.com/DurYi/SAMOSA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22538)
在您的 agent 中获取本文:
hf papers read 2605.22538
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
尚无模型关联本文
在模型 README.md 中引用 arxiv.org/abs/2605.22538 即可在此页面链接该模型。
引用本文的数据集0
尚无数据集关联本文
在数据集 README.md 中引用 arxiv.org/abs/2605.22538 即可在此页面链接该数据集。
引用本文的 Spaces0
尚无 Space 关联本文
在 Space README.md 中引用 arxiv.org/abs/2605.22538 即可在此页面链接该 Space。
包含本文的收藏0
尚无收藏包含本文
将本文添加到收藏 (https://huggingface.co/new-collection) 即可在此页面链接该收藏。
相似文章
Odyssey: 构建可验证的局部真值保持基础模型
本文介绍了一个范畴论框架,用于通过组合可复用的foundries(基础组件)来构建可验证、局部真值保持的基础模型,该框架在Odyssey系统中实现,并计划于ICML 2026进行教程讲解。
时间序列基础模型是否已准备好处理电子鼻数据?对其嵌入表示的实证评估
本文系统评估了时间序列基础模型(如 Chronos-2 和 MOMENT)在电子鼻数据上进行气体识别和浓度预测的效果。研究发现,微调是必要的,并且将 TSFM 嵌入表示与专门模型融合可以提升性能。
统一零样本时间序列预测:Darts基础
Darts,一个广受欢迎的开源Python时间序列分析库,引入了一个统一的FoundationModel类集合,该集合整合了多种时间序列基础模型(Chronos-2、TimesFM 2.5、TiRex、PatchTST-FM),通过标准化接口和最小依赖实现零样本和微调预测。
AI的未来是直观的(一分钟阅读)
General Intuition 宣布获得3.2亿美元A轮融资,估值达23亿美元,将利用Medal的游戏数据构建大型动作基础模型。
@svpino:我认为,那些构建最佳基础模型的公司,并不会同样在基于这些模型构建的产品上胜出。
Santiago认为,构建最佳基础模型的公司不一定会在基于这些模型的产品上胜出;专注和注重细节是关键,以云服务提供商为例。