InstructSAM:根据任意指令分割任意实例

Hugging Face Daily Papers 论文

摘要

InstructSAM 提出了一个统一的框架,用于多实例分割,采用指令驱动的查询,桥接视觉语言模型和 SAM3,在复杂基准上取得了强劲结果。

在本文中,我们提出了 InstructSAM,这是一个统一且精简的框架,专为在任意指令下进行多实例分割而设计。我们将指令驱动的实例分割形式化为一个集合结构化的查询预测问题,并提出了一个显式的推理到实例的查询接口,优雅地桥接了视觉语言模型(VLM)和 SAM3。具体来说,我们向 VLM 注入一组可学习的实例查询,并结合指令和视觉信息进行上下文化,使每个查询成为一个实例感知的槽位。混合注意力机制进一步促进了这些查询、视觉令牌和指令令牌之间的交互,改进了实例枚举并减少了重复预测。由此产生的 LLM 条件化查询被投影到 SAM3 的检测器查询空间中,以在单次前向传播中驱动准确的多实例分割。该设计在不修改 SAM3 核心架构的情况下,赋予了 SAM3 高级指令理解、组合推理和实例级集合预测的能力。为了支持训练和评估,我们进一步构建了 Inst2Seg,这是一个高质量、大规模、基于指令的实例分割数据集和基准,将自由形式的指令与实例级掩码配对。大量实验表明,仅 2B 规模的 InstructSAM 在复杂的指令驱动和短语级指代分割基准上取得了强劲结果,超越了之前的端到端方法和 SAM3 的代理流水线,同时实现了高效的单次多实例预测。
查看原文
查看缓存全文

缓存时间: 2026/05/26 06:42

Paper page - InstructSAM: 根据任意指令分割任意实例

来源:https://huggingface.co/papers/2605.26102

摘要

InstructSAM 提出了一个统一的框架,用于通过指令驱动的查询进行多实例分割,该框架通过可学习的实例查询和混合注意力机制,将视觉语言模型与 SAM3 连接起来。

在本文中,我们介绍了 InstructSAM,一个统一且精简的框架,旨在实现任意指令下的多实例分割。我们将指令驱动的实例分割形式化为一个集合结构化的查询预测问题,并提出一个显式的推理到实例查询接口,该接口优雅地连接了视觉语言模型(VLM)和 SAM3。具体来说,一组可学习的实例查询被注入到 VLM 中,并通过指令和视觉信息进行上下文化,使每个查询成为一个实例感知的槽位。一种混合注意力机制进一步促进这些查询、视觉 token 和指令 token 之间的交互,改善实例列举并减少重复预测。由此产生的 LLM 条件化查询被投影到 SAM3 的检测器查询空间中,以在单次前向传播中驱动准确的多实例分割。这种设计赋予了 SAM3 高级指令理解、组合推理和实例级集合预测的能力,而无需修改其核心架构。为了支持训练和评估,我们进一步构建了 Inst2Seg,一个高质量、大规模基于指令的实例分割数据集和基准,该数据集将自由形式的指令与实例级掩码配对。大量实验表明,仅 2B 规模的 InstructSAM 在复杂的指令驱动和短语级指代分割基准上都取得了强劲的结果,优于先前的端到端方法和 SAM3 的代理流水线,同时实现了高效的单次多实例预测。

查看 arXiv 页面 (https://arxiv.org/abs/2605.26102) 查看 PDF (https://arxiv.org/pdf/2605.26102) GitHub9 (https://github.com/DCDmllm/InstructSAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26102)

在您的代理中获取本文:

hf papers read 2605.26102

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。

引用本文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。

引用本文的空间0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。

包含本文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

SAM 3: Segment Anything with Concepts

Papers with Code Trending

SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。

SAM:面向长程推理智能体的状态自适应记忆

Hugging Face Daily Papers

本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。