SAM 3: Segment Anything with Concepts

Papers with Code Trending 2025/11/20 18:59 论文

摘要

SAM 3 引入了一个统一的模型，用于基于提示的概念分割与跟踪，通过解耦的识别与定位架构以及可扩展的数据引擎，实现了最先进的性能。

我们提出了 Segment Anything Model (SAM) 3，这是一个统一的模型，能够根据概念提示（我们将其定义为简短名词短语，例如“黄色校车”、图像示例或两者的组合）在图像和视频中检测、分割和跟踪物体。可提示概念分割（PCS）接受此类提示，并返回所有匹配物体实例的分割掩码和唯一标识。为了推进 PCS，我们构建了一个可扩展的数据引擎，生成了一个包含 400 万个独特概念标签的高质量数据集，其中包含图像和视频中的困难负样本。我们的模型由一个图像级检测器和一个基于记忆的视频跟踪器组成，它们共享一个单一主干网络。识别与定位通过一个存在性头部进行解耦，从而提升了检测精度。SAM 3 在图像和视频 PCS 中均将现有系统的准确率提升了一倍，并改进了之前 SAM 在视觉分割任务上的能力。我们开源了 SAM 3 以及我们新的用于可提示概念分割的 Segment Anything with Concepts (SA-Co) 基准测试。

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:24

论文页面 - SAM 3：基于概念的分割一切

来源：https://huggingface.co/papers/2511.16719

摘要

Segment Anything Model 3 通过采用解耦识别与定位的统一模型架构，在可提示概念分割与跟踪任务中达到了最先进的性能。

我们提出 Segment Anything Model (https://huggingface.co/papers?q=Segment%20Anything%20Model) (SAM) 3，这是一个统一的模型，能够基于概念提示 (https://huggingface.co/papers?q=concept%20prompts) 检测、分割并跟踪图像与视频中的物体。这里的概念提示定义为短名词短语（例如“黄色校车”）、图像示例或二者的组合。可提示概念分割 (https://huggingface.co/papers?q=Promptable%20Concept%20Segmentation) (PCS) 接收此类提示，并返回所有匹配物体实例的分割掩码 (https://huggingface.co/papers?q=segmentation%20masks) 和唯一身份标识 (https://huggingface.co/papers?q=unique%20identities)。为了推进 PCS，我们构建了一个可扩展的数据引擎 (https://huggingface.co/papers?q=scalable%20data%20engine)，生成了一个高质量数据集，包含 400 万个独特的跨图像和视频的概念标签，其中包括困难负样本。我们的模型由一个图像级检测器 (https://huggingface.co/papers?q=image-level%20detector) 和一个基于记忆的视频跟踪器 (https://huggingface.co/papers?q=memory-based%20video%20tracker) 组成，二者共享同一骨干网络。通过一个存在性头部 (https://huggingface.co/papers?q=presence%20head) 将识别与定位解耦，从而提升了检测精度。SAM 3 在图像和视频 PCS 中的准确率较现有系统提升了一倍，并在视觉分割任务 (https://huggingface.co/papers?q=visual%20segmentation%20tasks) 上改进了之前 SAM 的能力。我们开源了 SAM 3 以及新的 Segment Anything with Concepts (SA-Co) 基准，用于可提示概念分割 (https://huggingface.co/papers?q=promptable%20concept%20segmentation)。

查看 arXiv 页面 (https://arxiv.org/abs/2511.16719) 查看 PDF (https://arxiv.org/pdf/2511.16719) 项目页面 (https://ai.meta.com/sam3/) GitHub 9.65k (https://github.com/facebookresearch/sam3) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2511.16719)

在你的 agent 中获取此论文：

hf papers read 2511.16719

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 3

AllanVester/SAM3.1-CoreML-FP16 掩码生成 • 大约 1 个月前更新 • 97 • 3 (https://huggingface.co/AllanVester/SAM3.1-CoreML-FP16)

AllanVester/SAM3.1-CoreML 掩码生成 • 大约 1 个月前更新 • 58 • 2 (https://huggingface.co/AllanVester/SAM3.1-CoreML)

embedl/sam3 大约 16 天前更新 • 54 • 1 (https://huggingface.co/embedl/sam3)

引用此论文的数据集 0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2511.16719，以便在此页面显示链接。

引用此论文的 Space 1

包含此论文的收藏集 22

浏览包含此论文的 22 个收藏集 (https://huggingface.co/collections?paper=2511.16719)

SAM 3: Segment Anything with Concepts

论文页面 - SAM 3：基于概念的分割一切

摘要

引用此论文的模型 3

AllanVester/SAM3.1-CoreML-FP16 掩码生成 • 大约 1 个月前更新 • 97 • 3 (https://huggingface.co/AllanVester/SAM3.1-CoreML-FP16)

AllanVester/SAM3.1-CoreML 掩码生成 • 大约 1 个月前更新 • 58 • 2 (https://huggingface.co/AllanVester/SAM3.1-CoreML)

embedl/sam3 大约 16 天前更新 • 54 • 1 (https://huggingface.co/embedl/sam3)

引用此论文的数据集 0

引用此论文的 Space 1

包含此论文的收藏集 22

相似文章

SAM 3.1：通过多路复用和全局推理实现更快、更易用的实时视频检测与跟踪

@skalskip92: 没有陷阱；SAM3是开源的，真的很棒，它在物体追踪方面表现出色，即便在……

InstructSAM：根据任意指令分割任意实例

idea-research/ram-grounded-sam

SAM-MT: 实时交互式多目标视频分割

提交意见反馈