SAM 3: Segment Anything with Concepts
摘要
SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/20 02:24
论文页面 - SAM 3:基于概念的分割一切
来源:https://huggingface.co/papers/2511.16719
摘要
Segment Anything Model 3 通过采用解耦识别与定位的统一模型架构,在可提示概念分割与跟踪任务中达到了最先进的性能。
我们提出 Segment Anything Model (https://huggingface.co/papers?q=Segment%20Anything%20Model) (SAM) 3,这是一个统一的模型,能够基于概念提示 (https://huggingface.co/papers?q=concept%20prompts) 检测、分割并跟踪图像与视频中的物体。这里的概念提示定义为短名词短语(例如“黄色校车”)、图像示例或二者的组合。可提示概念分割 (https://huggingface.co/papers?q=Promptable%20Concept%20Segmentation) (PCS) 接收此类提示,并返回所有匹配物体实例的分割掩码 (https://huggingface.co/papers?q=segmentation%20masks) 和唯一身份标识 (https://huggingface.co/papers?q=unique%20identities)。为了推进 PCS,我们构建了一个可扩展的数据引擎 (https://huggingface.co/papers?q=scalable%20data%20engine),生成了一个高质量数据集,包含 400 万个独特的跨图像和视频的概念标签,其中包括困难负样本。我们的模型由一个图像级检测器 (https://huggingface.co/papers?q=image-level%20detector) 和一个基于记忆的视频跟踪器 (https://huggingface.co/papers?q=memory-based%20video%20tracker) 组成,二者共享同一骨干网络。通过一个存在性头部 (https://huggingface.co/papers?q=presence%20head) 将识别与定位解耦,从而提升了检测精度。SAM 3 在图像和视频 PCS 中的准确率较现有系统提升了一倍,并在视觉分割任务 (https://huggingface.co/papers?q=visual%20segmentation%20tasks) 上改进了之前 SAM 的能力。我们开源了 SAM 3 以及新的 Segment Anything with Concepts (SA-Co) 基准,用于可提示概念分割 (https://huggingface.co/papers?q=promptable%20concept%20segmentation)。
查看 arXiv 页面 (https://arxiv.org/abs/2511.16719) 查看 PDF (https://arxiv.org/pdf/2511.16719) 项目页面 (https://ai.meta.com/sam3/) GitHub 9.65k (https://github.com/facebookresearch/sam3) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2511.16719)
在你的 agent 中获取此论文:
hf papers read 2511.16719
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 3
AllanVester/SAM3.1-CoreML-FP16 掩码生成 • 大约 1 个月前更新 • 97 • 3 (https://huggingface.co/AllanVester/SAM3.1-CoreML-FP16)
AllanVester/SAM3.1-CoreML 掩码生成 • 大约 1 个月前更新 • 58 • 2 (https://huggingface.co/AllanVester/SAM3.1-CoreML)
embedl/sam3 大约 16 天前更新 • 54 • 1 (https://huggingface.co/embedl/sam3)
引用此论文的数据集 0
暂无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2511.16719,以便在此页面显示链接。
引用此论文的 Space 1
包含此论文的收藏集 22
浏览包含此论文的 22 个收藏集 (https://huggingface.co/collections?paper=2511.16719)
相似文章
SAM 3.1:通过多路复用和全局推理实现更快、更易用的实时视频检测与跟踪
Meta AI 发布了 SAM 3.1,这是 Segment Anything Model(分割一切模型)的一次更新,通过引入多路复用和全局推理能力,增强了实时视频检测与跟踪性能。
@skalskip92: 没有陷阱;SAM3是开源的,真的很棒,它在物体追踪方面表现出色,即便在……
SAM3(Segment Anything Model 3)是开源的,在物体追踪方面表现异常出色,即使在像篮球这样复杂的场景中也是如此,使其成为一款杰出的计算机视觉模型。
InstructSAM:根据任意指令分割任意实例
InstructSAM 提出了一个统一的框架,用于多实例分割,采用指令驱动的查询,桥接视觉语言模型和 SAM3,在复杂基准上取得了强劲结果。
@lillyguisnet: 哇塞!!!我还没有机会尝试SAM3.1,但仅仅用"worm"这个提示就能完美分割我的图像!…
一位用户分享了关于SAM 3.1的热情反馈:仅用'worm'等简单文本提示即可精准分割图像,相比SAM 1有显著提升。
SAM 3D Animal:基于提示的野外动物三维重建
SAM 3D Animal提出了一个基于提示的框架,用于从单张野外图像中进行多动物三维重建,该框架基于SMAL+模型,在多个数据集上取得了最先进的结果。