从像素到概念:分割模型真的理解它们分割的内容吗?
摘要
介绍了CAFE,一种通过反事实属性操作来评估可提示分割模型是否真正理解概念的基准,揭示了精确的掩码预测并不能保证忠实的语义基础。
查看缓存全文
缓存时间: 2026/05/14 12:18
论文页面 - 从像素到概念:分割模型理解它们分割的内容吗?
来源:https://huggingface.co/papers/2605.09591
摘要
CAFE 是一个新基准,用于通过属性级反事实操控评估可提示模型中的概念忠实分割,揭示了准确的掩码预测并不能保证语义锚定。
分割是一项基础视觉任务,支撑着众多下游应用。最近的可提示分割模型(https://huggingface.co/papers?q=promptable%20segmentation%20models),例如 Segment Anything Model 3(https://huggingface.co/papers?q=Segment%20Anything%20Model%203)(SAM3),将分割从与类别无关的掩码预测(https://huggingface.co/papers?q=mask%20prediction)扩展到以高层文本提示为条件的概念引导定位(https://huggingface.co/papers?q=concept-guided%20localization)。然而,现有基准主要评估掩码准确率或物体存在性,无法判断这些模型是否忠实地锚定了查询概念,还是依赖视觉上显著但语义上误导的线索。我们提出了 CAFE:反事实属性真实性评估(Counterfactual Attribute Factuality Evaluation),这是一个新颖的基准,用于评估可提示分割模型(https://huggingface.co/papers?q=promptable%20segmentation%20models)中概念忠实的分割。我们的 CAFE 基于属性级反事实操控(https://huggingface.co/papers?q=counterfactual%20manipulation):目标区域和真实掩码保持不变,而表面外观、上下文或材质构成等属性被修改,以引入误导性的语义线索。该基准包含 2,146 对测试样本,每对由一个目标图像、一个真实掩码、一个正面提示和一个误导性的负面提示组成。这些样本覆盖三个反事实类别:表面模仿(SM)、上下文冲突(CC)和本体冲突(OC)。我们在 CAFE 上评估了多种模型类型和大小。实验揭示了定位质量与概念判别之间的系统性差距:模型即使在误导性提示下也常常生成准确的掩码,这表明强大的掩码预测(https://huggingface.co/papers?q=mask%20prediction)并不一定意味着忠实的语义锚定(https://huggingface.co/papers?q=semantic%20grounding)。我们的 CAFE 提供了一个受控基准,用于诊断可提示分割模型(https://huggingface.co/papers?q=promptable%20segmentation%20models)是执行概念忠实锚定还是基于捷径的掩码检索。
查看 arXiv 页面(https://arxiv.org/abs/2605.09591)查看 PDF(https://arxiv.org/pdf/2605.09591)项目页面(https://t-s-liang.github.io/CAFE)GitHub3(https://github.com/T-S-Liang/CAFE)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09591)
在你的 agent 中获取此论文:
hf papers read 2605.09591
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09591 可从本页链接。
引用本论文的数据集1
teemosliang/CAFE 查看器• 约4小时前更新 • 2.15k • 21 (https://huggingface.co/datasets/teemosliang/CAFE)
引用本论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.09591 可从本页链接。
包含本论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)中可从本页链接。
相似文章
SAM 3: Segment Anything with Concepts
SAM 3 引入了一个统一的模型,用于基于提示的概念分割与跟踪,通过解耦的识别与定位架构以及可扩展的数据引擎,实现了最先进的性能。
句子编码器中概念表征的原则
本文通过组合语义学的视角研究句子编码器中概念表征的原则,确定了四个关键原则:微调重新校准潜在几何结构,语义信号集中在最后一层,困难负样本提高区分性但不提高排序,监督有效性取决于组合类型。
面向复杂系统中可解释预测性维护的语义特征分割
本文提出了一种用于预测性维护的语义特征分割框架,将监测信号分解为规范成分和残差成分,以提高可解释性,同时保持预测性能。
研究求助:观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]
一项实证研究表明,长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐,促使其生成原本被屏蔽的评论。作者并非专家,请求对其指标进行审计,以区分真正的语义劫持与假象。
迈向细粒度且可验证的Concept Bottleneck Models
本文提出了一种细粒度的Concept Bottleneck Model框架,将每个概念锚定在局部视觉证据上,从而能够直接验证概念的正确性,并提高医学成像任务的透明度。