面向复杂非线性视觉目标跟踪的Segment Anything运动、几何与语义自适应

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

SAMOSA将SAM 2适配到视觉目标跟踪任务中，通过整合运动预测、语义检测和几何约束，提升在存在干扰物、遮挡和非线性运动的复杂场景下的鲁棒性和泛化能力。

传统的视觉目标跟踪(VOT)方法通常依赖于特定任务的监督训练，这限制了它们在面对未见物体以及存在干扰物、遮挡和非线性运动等复杂场景时的泛化能力。最近以SAM 2为代表的视觉基础模型通过大规模预训练学习了强大的视频理解先验知识，为构建更鲁棒、更具泛化能力的跟踪器提供了有前景的基础。然而，直接将SAM 2应用于VOT仍然不是最优的，因为它没有显式建模目标运动动态，也没有跨帧强制几何和语义一致性，而这两者对可靠跟踪都至关重要。为解决此问题，我们提出了SAMOSA，一种新的跟踪框架，通过显式利用运动、几何和语义线索来使SAM 2适应复杂的VOT场景。具体来说，我们引入了一个轻量级的非线性运动预测器来建模目标动态，并指导掩码选择及记忆过滤。我们进一步利用语义线索检测目标偏移并从跟踪失败中恢复，同时将几何线索作为结构约束以提高跟踪稳定性。这样，SAMOSA弥合了SAM 2隐式视频理解先验与显式面向跟踪的建模之间的差距。大量实验表明，SAMOSA在通用基准测试上持续优于基于SAM 2的最新方法，展现出比监督VOT方法更强的泛化能力，并在典型的复杂非线性运动场景的反无人机数据集上取得了显著提升。我们的代码可在 https://github.com/DurYi/SAMOSA 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/22 06:30

论文页面 - 结合运动、几何与语义适配的复杂非线性视觉目标追踪分割一切模型

来源：https://huggingface.co/papers/2605.22538

摘要

SAMOSA 通过引入运动预测、语义检测和几何约束，对 SAM 2 进行适配，以提升在复杂场景下视觉目标追踪的鲁棒性和泛化能力。

传统视觉目标追踪（VOT）方法通常依赖任务特定的监督训练，这限制了其对未见目标及存在干扰物、遮挡和非线性运动的挑战性场景的泛化能力。近期以 SAM 2 为代表的视觉基础模型，通过大规模预训练学习到强大的视频理解先验知识，为构建更鲁棒、更具泛化性的追踪器提供了有前景的基础。然而，直接将 SAM 2 应用于 VOT 仍非最优，因为它没有显式建模目标的运动动态，也未在帧间施加几何和语义一致性约束，而这两点对于可靠追踪至关重要。为解决此问题，我们提出 SAMOSA，一种新的追踪框架，通过显式利用运动、几何和语义线索将 SAM 2 适配到复杂 VOT 场景。具体来说，我们引入一个轻量级非线性运动预测器来建模目标动态，并指导掩码选择和记忆过滤。我们进一步利用语义线索检测目标偏移并从追踪失败中恢复，同时将几何线索作为结构约束以提高追踪稳定性。通过这种方式，SAMOSA 弥合了 SAM 2 隐式视频理解先验与显式面向追踪建模之间的差距。大量实验表明，SAMOSA 在通用基准测试上持续优于基于 SAM 2 的最先进方法，展现出比有监督 VOT 方法更强的泛化能力，并在典型非线性运动场景的反无人机数据集上取得了显著提升。我们的代码已在 https://github.com/DurYi/SAMOSA 公开。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22538) 查看 PDF (https://arxiv.org/pdf/2605.22538) GitHub1 (https://github.com/DurYi/SAMOSA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22538)

在您的 agent 中获取本文：

hf papers read 2605.22538

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型关联本文

在模型 README.md 中引用 arxiv.org/abs/2605.22538 即可在此页面链接该模型。

引用本文的数据集0

尚无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2605.22538 即可在此页面链接该数据集。

引用本文的 Spaces0

尚无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2605.22538 即可在此页面链接该 Space。

包含本文的收藏0

尚无收藏包含本文

将本文添加到收藏 (https://huggingface.co/new-collection) 即可在此页面链接该收藏。

面向复杂非线性视觉目标跟踪的Segment Anything运动、几何与语义自适应

论文页面 - 结合运动、几何与语义适配的复杂非线性视觉目标追踪分割一切模型

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏0

相似文章

Odyssey: 构建可验证的局部真值保持基础模型

时间序列基础模型是否已准备好处理电子鼻数据？对其嵌入表示的实证评估

统一零样本时间序列预测：Darts基础

AI的未来是直观的（一分钟阅读）

@svpino：我认为，那些构建最佳基础模型的公司，并不会同样在基于这些模型构建的产品上胜出。

提交意见反馈