SAM 3: Segment Anything with Concepts

Papers with Code Trending 论文

摘要

SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。

我们提出了 Segment Anything Model (SAM) 3,这是一个统一的模型,能够根据概念提示(我们将其定义为简短名词短语,例如“黄色校车”、图像示例或两者的组合)在图像和视频中检测、分割和跟踪物体。可提示概念分割(PCS)接受此类提示,并返回所有匹配物体实例的分割掩码和唯一标识。为了推进 PCS,我们构建了一个可扩展的数据引擎,生成了一个包含 400 万个独特概念标签的高质量数据集,其中包含图像和视频中的困难负样本。我们的模型由一个图像级检测器和一个基于记忆的视频跟踪器组成,它们共享一个单一主干网络。识别与定位通过一个存在性头部进行解耦,从而提升了检测精度。SAM 3 在图像和视频 PCS 中均将现有系统的准确率提升了一倍,并改进了之前 SAM 在视觉分割任务上的能力。我们开源了 SAM 3 以及我们新的用于可提示概念分割的 Segment Anything with Concepts (SA-Co) 基准测试。
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:24

论文页面 - SAM 3:基于概念的分割一切

来源:https://huggingface.co/papers/2511.16719

摘要

Segment Anything Model 3 通过采用解耦识别与定位的统一模型架构,在可提示概念分割与跟踪任务中达到了最先进的性能。

我们提出 Segment Anything Model (https://huggingface.co/papers?q=Segment%20Anything%20Model) (SAM) 3,这是一个统一的模型,能够基于概念提示 (https://huggingface.co/papers?q=concept%20prompts) 检测、分割并跟踪图像与视频中的物体。这里的概念提示定义为短名词短语(例如“黄色校车”)、图像示例或二者的组合。可提示概念分割 (https://huggingface.co/papers?q=Promptable%20Concept%20Segmentation) (PCS) 接收此类提示,并返回所有匹配物体实例的分割掩码 (https://huggingface.co/papers?q=segmentation%20masks) 和唯一身份标识 (https://huggingface.co/papers?q=unique%20identities)。为了推进 PCS,我们构建了一个可扩展的数据引擎 (https://huggingface.co/papers?q=scalable%20data%20engine),生成了一个高质量数据集,包含 400 万个独特的跨图像和视频的概念标签,其中包括困难负样本。我们的模型由一个图像级检测器 (https://huggingface.co/papers?q=image-level%20detector) 和一个基于记忆的视频跟踪器 (https://huggingface.co/papers?q=memory-based%20video%20tracker) 组成,二者共享同一骨干网络。通过一个存在性头部 (https://huggingface.co/papers?q=presence%20head) 将识别与定位解耦,从而提升了检测精度。SAM 3 在图像和视频 PCS 中的准确率较现有系统提升了一倍,并在视觉分割任务 (https://huggingface.co/papers?q=visual%20segmentation%20tasks) 上改进了之前 SAM 的能力。我们开源了 SAM 3 以及新的 Segment Anything with Concepts (SA-Co) 基准,用于可提示概念分割 (https://huggingface.co/papers?q=promptable%20concept%20segmentation)。

查看 arXiv 页面 (https://arxiv.org/abs/2511.16719) 查看 PDF (https://arxiv.org/pdf/2511.16719) 项目页面 (https://ai.meta.com/sam3/) GitHub 9.65k (https://github.com/facebookresearch/sam3) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2511.16719)

在你的 agent 中获取此论文:

hf papers read 2511.16719

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 3

AllanVester/SAM3.1-CoreML-FP16 掩码生成 • 大约 1 个月前更新 • 97 • 3 (https://huggingface.co/AllanVester/SAM3.1-CoreML-FP16)

AllanVester/SAM3.1-CoreML 掩码生成 • 大约 1 个月前更新 • 58 • 2 (https://huggingface.co/AllanVester/SAM3.1-CoreML)

embedl/sam3 大约 16 天前更新 • 54 • 1 (https://huggingface.co/embedl/sam3)

引用此论文的数据集 0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2511.16719,以便在此页面显示链接。

引用此论文的 Space 1

包含此论文的收藏集 22

浏览包含此论文的 22 个收藏集 (https://huggingface.co/collections?paper=2511.16719)

相似文章

InstructSAM:根据任意指令分割任意实例

Hugging Face Daily Papers

InstructSAM 提出了一个统一的框架,用于多实例分割,采用指令驱动的查询,桥接视觉语言模型和 SAM3,在复杂基准上取得了强劲结果。

SAM 3D Animal:基于提示的野外动物三维重建

Hugging Face Daily Papers

SAM 3D Animal提出了一个基于提示的框架,用于从单张野外图像中进行多动物三维重建,该框架基于SMAL+模型,在多个数据集上取得了最先进的结果。