InstructSAM：根据任意指令分割任意实例

Hugging Face Daily Papers 2026/05/25 00:00 论文

摘要

InstructSAM 提出了一个统一的框架，用于多实例分割，采用指令驱动的查询，桥接视觉语言模型和 SAM3，在复杂基准上取得了强劲结果。

在本文中，我们提出了 InstructSAM，这是一个统一且精简的框架，专为在任意指令下进行多实例分割而设计。我们将指令驱动的实例分割形式化为一个集合结构化的查询预测问题，并提出了一个显式的推理到实例的查询接口，优雅地桥接了视觉语言模型（VLM）和 SAM3。具体来说，我们向 VLM 注入一组可学习的实例查询，并结合指令和视觉信息进行上下文化，使每个查询成为一个实例感知的槽位。混合注意力机制进一步促进了这些查询、视觉令牌和指令令牌之间的交互，改进了实例枚举并减少了重复预测。由此产生的 LLM 条件化查询被投影到 SAM3 的检测器查询空间中，以在单次前向传播中驱动准确的多实例分割。该设计在不修改 SAM3 核心架构的情况下，赋予了 SAM3 高级指令理解、组合推理和实例级集合预测的能力。为了支持训练和评估，我们进一步构建了 Inst2Seg，这是一个高质量、大规模、基于指令的实例分割数据集和基准，将自由形式的指令与实例级掩码配对。大量实验表明，仅 2B 规模的 InstructSAM 在复杂的指令驱动和短语级指代分割基准上取得了强劲结果，超越了之前的端到端方法和 SAM3 的代理流水线，同时实现了高效的单次多实例预测。

查看原文

查看缓存全文

缓存时间: 2026/05/26 06:42

Paper page - InstructSAM: 根据任意指令分割任意实例

来源：https://huggingface.co/papers/2605.26102

摘要

InstructSAM 提出了一个统一的框架，用于通过指令驱动的查询进行多实例分割，该框架通过可学习的实例查询和混合注意力机制，将视觉语言模型与 SAM3 连接起来。

在本文中，我们介绍了 InstructSAM，一个统一且精简的框架，旨在实现任意指令下的多实例分割。我们将指令驱动的实例分割形式化为一个集合结构化的查询预测问题，并提出一个显式的推理到实例查询接口，该接口优雅地连接了视觉语言模型（VLM）和 SAM3。具体来说，一组可学习的实例查询被注入到 VLM 中，并通过指令和视觉信息进行上下文化，使每个查询成为一个实例感知的槽位。一种混合注意力机制进一步促进这些查询、视觉 token 和指令 token 之间的交互，改善实例列举并减少重复预测。由此产生的 LLM 条件化查询被投影到 SAM3 的检测器查询空间中，以在单次前向传播中驱动准确的多实例分割。这种设计赋予了 SAM3 高级指令理解、组合推理和实例级集合预测的能力，而无需修改其核心架构。为了支持训练和评估，我们进一步构建了 Inst2Seg，一个高质量、大规模基于指令的实例分割数据集和基准，该数据集将自由形式的指令与实例级掩码配对。大量实验表明，仅 2B 规模的 InstructSAM 在复杂的指令驱动和短语级指代分割基准上都取得了强劲的结果，优于先前的端到端方法和 SAM3 的代理流水线，同时实现了高效的单次多实例预测。

查看 arXiv 页面 (https://arxiv.org/abs/2605.26102) 查看 PDF (https://arxiv.org/pdf/2605.26102) GitHub9 (https://github.com/DCDmllm/InstructSAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26102)

在您的代理中获取本文：

hf papers read 2605.26102

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。

引用本文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。

引用本文的空间0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.26102 以从该页面链接。

包含本文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接。

InstructSAM：根据任意指令分割任意实例

Paper page - InstructSAM: 根据任意指令分割任意实例

摘要

引用本文的模型0

引用本文的数据集0

引用本文的空间0

包含本文的收藏集0

相似文章

SAM 3: Segment Anything with Concepts

SAM 3.1：通过多路复用和全局推理实现更快、更易用的实时视频检测与跟踪

SAM-MT: 实时交互式多目标视频分割

@skalskip92: 没有陷阱；SAM3是开源的，真的很棒，它在物体追踪方面表现出色，即便在……

idea-research/ram-grounded-sam

提交意见反馈