InstructSAM:根据任意指令分割任意实例
摘要
InstructSAM 提出了一个统一的框架,用于多实例分割,采用指令驱动的查询,桥接视觉语言模型和 SAM3,在复杂基准上取得了强劲结果。
查看缓存全文
缓存时间: 2026/05/26 06:42
Paper page - InstructSAM: 根据任意指令分割任意实例
来源:https://huggingface.co/papers/2605.26102
摘要
InstructSAM 提出了一个统一的框架,用于通过指令驱动的查询进行多实例分割,该框架通过可学习的实例查询和混合注意力机制,将视觉语言模型与 SAM3 连接起来。
在本文中,我们介绍了 InstructSAM,一个统一且精简的框架,旨在实现任意指令下的多实例分割。我们将指令驱动的实例分割形式化为一个集合结构化的查询预测问题,并提出一个显式的推理到实例查询接口,该接口优雅地连接了视觉语言模型(VLM)和 SAM3。具体来说,一组可学习的实例查询被注入到 VLM 中,并通过指令和视觉信息进行上下文化,使每个查询成为一个实例感知的槽位。一种混合注意力机制进一步促进这些查询、视觉 token 和指令 token 之间的交互,改善实例列举并减少重复预测。由此产生的 LLM 条件化查询被投影到 SAM3 的检测器查询空间中,以在单次前向传播中驱动准确的多实例分割。这种设计赋予了 SAM3 高级指令理解、组合推理和实例级集合预测的能力,而无需修改其核心架构。为了支持训练和评估,我们进一步构建了 Inst2Seg,一个高质量、大规模基于指令的实例分割数据集和基准,该数据集将自由形式的指令与实例级掩码配对。大量实验表明,仅 2B 规模的 InstructSAM 在复杂的指令驱动和短语级指代分割基准上都取得了强劲的结果,优于先前的端到端方法和 SAM3 的代理流水线,同时实现了高效的单次多实例预测。
查看 arXiv 页面 (https://arxiv.org/abs/2605.26102) 查看 PDF (https://arxiv.org/pdf/2605.26102) GitHub9 (https://github.com/DCDmllm/InstructSAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26102)
在您的代理中获取本文:
hf papers read 2605.26102
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。
引用本文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。
引用本文的空间0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。
包含本文的收藏集0
没有收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
SAM 3: Segment Anything with Concepts
SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。
SAM 3.1:通过多路复用和全局推理实现更快、更易用的实时视频检测与跟踪
Meta AI 发布了 SAM 3.1,这是 Segment Anything Model(分割一切模型)的一次更新,通过引入多路复用和全局推理能力,增强了实时视频检测与跟踪性能。
@skalskip92: 没有陷阱;SAM3是开源的,真的很棒,它在物体追踪方面表现出色,即便在……
SAM3(Segment Anything Model 3)是开源的,在物体追踪方面表现异常出色,即使在像篮球这样复杂的场景中也是如此,使其成为一款杰出的计算机视觉模型。
@lillyguisnet: 哇塞!!!我还没有机会尝试SAM3.1,但仅仅用"worm"这个提示就能完美分割我的图像!…
一位用户分享了关于SAM 3.1的热情反馈:仅用'worm'等简单文本提示即可精准分割图像,相比SAM 1有显著提升。
SAM:面向长程推理智能体的状态自适应记忆
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。