从像素到概念:分割模型真的理解它们分割的内容吗?

Hugging Face Daily Papers 论文

摘要

介绍了CAFE,一种通过反事实属性操作来评估可提示分割模型是否真正理解概念的基准,揭示了精确的掩码预测并不能保证忠实的语义基础。

分割是支撑众多下游应用的基础视觉任务。近期出现的可提示分割模型,例如Segment Anything Model 3 (SAM3),将分割从类别无关的掩码预测扩展到基于高级文本提示的概念引导定位。然而,现有基准主要评估掩码准确性或对象存在性,尚不清楚这些模型是忠实地锚定所查询的概念,还是依赖视觉上显著但语义上具有误导性的线索。我们引入了CAFE:反事实属性事实性评估(Counterfactual Attribute Factuality Evaluation),这是一个用于评估可提示分割模型中概念忠实分割的新型基准。我们的CAFE建立在属性级反事实操作上:目标区域和真实掩码保持不变,而表面外观、上下文或材料组成等属性被修改,以引入具有误导性的语义线索。该基准包含2,146对测试样本,每对包含一张目标图像、一个真实掩码、一条正面提示和一条具有误导性的负面提示。这些样本涵盖了三种反事实类别:表面模仿(Superficial Mimicry, SM)、上下文冲突(Context Conflict, CC)和本体冲突(Ontological Conflict, OC)。我们在CAFE上评估了多种模型类型和规模。实验揭示了定位质量与概念区分之间的系统性差距:模型即使对于误导性提示也常常生成精确的掩码,这表明强大的掩码预测并不一定意味着忠实的语义基础。我们的CAFE提供了一个受控基准,用于诊断可提示分割模型是否执行概念忠实的基础定位,而非依赖于捷径驱动的掩码检索。
查看原文
查看缓存全文

缓存时间: 2026/05/14 12:18

论文页面 - 从像素到概念:分割模型理解它们分割的内容吗?

来源:https://huggingface.co/papers/2605.09591

摘要

CAFE 是一个新基准,用于通过属性级反事实操控评估可提示模型中的概念忠实分割,揭示了准确的掩码预测并不能保证语义锚定。

分割是一项基础视觉任务,支撑着众多下游应用。最近的可提示分割模型(https://huggingface.co/papers?q=promptable%20segmentation%20models),例如 Segment Anything Model 3(https://huggingface.co/papers?q=Segment%20Anything%20Model%203)(SAM3),将分割从与类别无关的掩码预测(https://huggingface.co/papers?q=mask%20prediction)扩展到以高层文本提示为条件的概念引导定位(https://huggingface.co/papers?q=concept-guided%20localization)。然而,现有基准主要评估掩码准确率或物体存在性,无法判断这些模型是否忠实地锚定了查询概念,还是依赖视觉上显著但语义上误导的线索。我们提出了 CAFE:反事实属性真实性评估(Counterfactual Attribute Factuality Evaluation),这是一个新颖的基准,用于评估可提示分割模型(https://huggingface.co/papers?q=promptable%20segmentation%20models)中概念忠实的分割。我们的 CAFE 基于属性级反事实操控(https://huggingface.co/papers?q=counterfactual%20manipulation):目标区域和真实掩码保持不变,而表面外观、上下文或材质构成等属性被修改,以引入误导性的语义线索。该基准包含 2,146 对测试样本,每对由一个目标图像、一个真实掩码、一个正面提示和一个误导性的负面提示组成。这些样本覆盖三个反事实类别:表面模仿(SM)、上下文冲突(CC)和本体冲突(OC)。我们在 CAFE 上评估了多种模型类型和大小。实验揭示了定位质量与概念判别之间的系统性差距:模型即使在误导性提示下也常常生成准确的掩码,这表明强大的掩码预测(https://huggingface.co/papers?q=mask%20prediction)并不一定意味着忠实的语义锚定(https://huggingface.co/papers?q=semantic%20grounding)。我们的 CAFE 提供了一个受控基准,用于诊断可提示分割模型(https://huggingface.co/papers?q=promptable%20segmentation%20models)是执行概念忠实锚定还是基于捷径的掩码检索。

查看 arXiv 页面(https://arxiv.org/abs/2605.09591)查看 PDF(https://arxiv.org/pdf/2605.09591)项目页面(https://t-s-liang.github.io/CAFE)GitHub3(https://github.com/T-S-Liang/CAFE)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09591)

在你的 agent 中获取此论文:

hf papers read 2605.09591

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09591 可从本页链接。

引用本论文的数据集1

teemosliang/CAFE 查看器• 约4小时前更新 • 2.15k • 21 (https://huggingface.co/datasets/teemosliang/CAFE)

引用本论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09591 可从本页链接。

包含本论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中可从本页链接。

相似文章

SAM 3: Segment Anything with Concepts

Papers with Code Trending

SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。

句子编码器中概念表征的原则

arXiv cs.CL

本文通过组合语义学的视角研究句子编码器中概念表征的原则,确定了四个关键原则:微调重新校准潜在几何结构,语义信号集中在最后一层,困难负样本提高区分性但不提高排序,监督有效性取决于组合类型。