文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

Hugging Face Daily Papers 2026/06/23 00:00 论文

摘要

本文介绍了CF-World，一个用于评估文本到图像模型是否依赖因果推理或仅仅是模式匹配的反事实基准。实验表明，所有模型在反事实设置下表现急剧下降，表明它们的理解仅限于视觉-文本紧密耦合的模式，而非真正的因果推理。

文本到图像（T2I）生成模型在根据自然语言提示生成视觉上逼真的图像方面取得了显著进展。然而，它们的成功究竟反映了真正的因果理解，还是对视觉-文本相关性的复杂模式匹配，仍不明确。受罗素的归纳主义火鸡启发，我们引入了反事实世界（Counterfactual-World, CF-World），这是一个反事实基准，旨在探究文本到图像模型是否能够在系统性地违背现实世界先验的规则下生成图像。CF-World将每个场景组织为三个渐进级别：基于普通世界知识的事实生成、带有直接视觉指令的显式反事实生成，以及需要从改变的规则中进行因果推理的隐式反事实生成。我们使用基于视觉语言模型（VLM）的评估器（CF-Eval）对开源和闭源T2I模型进行评估。此外，我们引入了两个指标：先验抵抗率（PRR），衡量模型克服根深蒂固的现实世界先验的能力；以及推理保持率（RRR），评估模型在缺乏明确视觉线索的情况下维持依赖推理的反事实生成的能力。实验表明，所有模型在从事实设置到反事实设置时都表现出急剧的性能下降。进一步分析表明，这些失败是由于当前的T2I模型将世界知识与视觉外观编码为紧密耦合的模式。因此，它们严重依赖于训练数据中频繁出现的视觉共现，这迫使它们在处理反事实世界时默认使用熟悉的常识先验。

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - 文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

来源：https://huggingface.co/papers/2606.24548
作者：

摘要

文本到图像模型无法生成反事实场景，因为它们依赖紧密耦合的视觉-文本模式而非因果推理，显示出对模式匹配以外的理解十分有限。

文本到图像（T2I）生成模型在从自然语言提示生成视觉逼真图像方面取得了显著进展。然而，它们的成功究竟是反映了真正的因果理解（https://huggingface.co/papers?q=causal%20understanding），还是仅仅利用视觉-文本相关性（https://huggingface.co/papers?q=visual-textual%20correlations）进行复杂的模式匹配（https://huggingface.co/papers?q=pattern%20matching），这一点仍不清楚。受罗素归纳主义火鸡的启发，我们提出了Counterfactual-World (CF-World)，这是一个反事实基准（https://huggingface.co/papers?q=counterfactual%20benchmark），旨在探究文本到图像模型是否能根据系统性违背现实世界先验知识的规则生成图像。CF-World将每个场景组织为三个递进层级：基于普通世界知识的事实生成、带有直接视觉指令的显式反事实生成，以及需要从改变后的规则中进行因果推导的隐式反事实生成。我们使用基于视觉语言模型（VLM）的评估器CF-Eval（https://huggingface.co/papers?q=CF-Eval）对开源和闭源T2I模型进行评估。此外，我们引入了两个指标：先验抵抗率（Prior Resistance Rate, PRR），用于衡量模型克服根深蒂固的现实世界先验的能力；以及推理保持率（Reasoning Retention Rate, RRR），用于评估模型在没有明确视觉线索的情况下维持依赖推理的反事实生成的能力。实验表明，所有模型在从事实到反事实的设置中都表现出急剧的性能下降。进一步分析表明，这些失败源于当前T2I模型将世界知识与视觉外观编码为紧密耦合的模式。因此，它们严重依赖训练数据中频繁出现的视觉共现模式，在需要渲染反事实世界时，会强制退回到熟悉的常识性先验。

查看arXiv页面（https://arxiv.org/abs/2606.24548）查看PDF（https://arxiv.org/pdf/2606.24548）项目页面（https://jylei16.github.io/CF-World.github.io/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.24548）

在您的代理中获取这篇论文：

hf papers read 2606.24548

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2606.24548以将其链接到此页面。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2606.24548以将其链接到此页面。

引用此论文的Space 0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2606.24548以将其链接到此页面。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以将其链接到此页面。

文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

论文页面 - 文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Space 0

包含此论文的收藏 0

相似文章

YoCausal: 视频生成距离世界模型有多远？因果视角

Vernier: 探究因果推理中词汇缺口背后的表征错位

可观测模式并非解释：隐式推理模型的因果几何分析

基于文本的因果推断方法：解析影响在线评价评分的多维因素

代理时代的因果发现

提交意见反馈