每种细胞类型只需一次点击:用于细胞实例分割的无训练组交互

Hugging Face Daily Papers 论文

摘要

组提示(Group Prompting)引入了一种无训练框架,用于细胞实例分割,只需对每种细胞类型进行一次点击,利用Segment Anything Model的特征空间递归扩展提示,无需训练即可实现有竞争力的性能。

在细胞特异性数据集上训练的细胞实例分割模型在遇到分布外的细胞类型时性能严重下降,而交互式基础模型通过逐实例提示克服了这一问题,但这种成本对于含有数百到数千个密集排列实例的组织病理学图像来说过于高昂。我们提出了Group Prompting,这是一种新范式,将交互式分割从逐实例的O(N)复杂度降低为逐类型的O(T)复杂度,即每种细胞类型只需一次点击即可分割该类型的所有实例。我们的关键观察是,在给出任何提示之前,Segment Anything Model(SAM)的冻结图像编码器已经在其特征空间中聚类了相同类型的细胞。利用这一特性,我们提出了Chain-of-Prompts(CoP),这是一个无训练框架,通过以下方式递归扩展单个用户点击:(1)通过多尺度编码器特征的非参数门控识别可靠的相同类型位置,(2)选择空间上最远的可靠点作为下一个提示以最大化覆盖范围。在三个带有细胞类型标注的基准测试中,CoP在每种类型仅需一次点击的情况下保留了超过90%的逐实例性能,并且在没有额外训练的情况下超越了全监督方法。在四个形态均匀的基准测试中,单次点击保留了超过99%的性能。项目页面:https://shjo-april.github.io/Chain-of-Prompts/
查看原文
查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - 每类细胞只需一次点击:无需训练的分组交互实现细胞实例分割

来源:https://huggingface.co/papers/2605.29429

摘要

Group Prompting 通过一种无需训练的框架实现高效的细胞实例分割,该框架利用每类提示(per-type prompting),结合多尺度编码器特征与递归式提示扩展。

基于特定细胞数据集训练(https://huggingface.co/papers?q=Cell%20instance%20segmentation)的细胞实例分割模型,在处理分布外的细胞类型时会遭遇严重的性能下降;而交互式基础模型(https://huggingface.co/papers?q=interactive%20foundation%20models)通过每个实例的提示(https://huggingface.co/papers?q=per-instance%20prompting)克服了这一问题,但对于包含成百上千个密集实例的组织病理学图像而言,这种方法的成本过高。我们提出了 Group Prompting,这是一种新的范式,将交互式分割从每个实例 O(N) 转变为每类 O(T),即只需对每种细胞类型进行一次点击,就能分割该类型的所有实例。我们的关键发现是:Segment Anything Model(https://huggingface.co/papers?q=Segment%20Anything%20Model)(SAM)的冻结图像编码器(https://huggingface.co/papers?q=frozen%20image%20encoder),在没有任何提示输入之前,就已经在其特征空间中将同类型细胞聚集在一起。利用这一特性,我们提出了 Chain-of-Prompts(https://huggingface.co/papers?q=Chain-of-Prompts)(CoP),这是一个无需训练的框架,它通过以下方式递归地扩展单个用户点击:(1)通过对多尺度编码器特征(https://huggingface.co/papers?q=multi-scale%20encoder%20features)进行非参数门控(https://huggingface.co/papers?q=non-parametric%20gating),识别出可靠的同类位置;(2)选择空间上最远的可靠点作为下一个提示,以最大化覆盖范围。在三个带有细胞类型标注的基准测试上,CoP 使用每类一次点击即可保留超过 90% 的每个实例分割性能,并且无需任何额外训练就超越了全监督方法。在四个形态均匀的基准测试上,单次点击可保留超过 99% 的性能。项目页面:https://shjo-april.github.io/Chain-of-Prompts(https://huggingface.co/papers?q=Chain-of-Prompts)/

查看 arXiv 页面(https://arxiv.org/abs/2605.29429)查看 PDF(https://arxiv.org/pdf/2605.29429)项目页面(https://shjo-april.github.io/Chain-of-Prompts/)GitHub3(https://github.com/shjo-april/Chain-of-Prompts)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29429)

在您的 agent 中获取此论文:

hf papers read 2605\.29429

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29429 以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.29429 以从该页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29429 以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从该页面链接。

相似文章

SAM 3: Segment Anything with Concepts

Papers with Code Trending

SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。

Point-E:从复杂文本提示生成3D点云的系统

OpenAI Blog

OpenAI推出Point-E,一个通过结合文本到图像和图像到3D的扩散模型,能在单个GPU上在1-2分钟内从文本提示生成3D点云的系统。该方法相比现有方法实现了显著的速度提升,同时发布了预训练模型和代码。

分解提示如何引导行为

arXiv cs.AI

本文介绍了一个嵌套的几何分解框架,用于分析提示如何重新组织大型语言模型和视觉-语言模型的内部表征。作者表明,仿射变换,特别是跨维度的线性混合,是解释提示引起的行为变化的关键。